Sto scrivendo uno script R e sto usando la libreria (ngram).Perché la funzione ngrams() fornisce distinti bigram?
Supponiamo che io sono una stringa,
"buona qualiti cibo per cani sever comprato vitale può cibo per cani Prodotto trovato buon prodotto qualiti sembrare carne processo in umido odore meglio labrador finicki appreci prodotto migliore"
e vuoi trovare i bi-grammi.
La biblioteca Ngram mi sta dando bi-grammi come segue:
"prodotto appreci" "carne processo di" "prodotto alimentare" "cibo comprato" "cane qualiti" "prodotto trovato" "aspetto del prodotto" "Guarda come "" come stufato "" buon qualiti "" labrador finicki "" comprato sever "" prodotto qualitativo "" meglio labrador " " cibo per cani "" buon odore "" lattina vitale "" odore di carne "" trovato buono "" sever vital "" stew processo "" can dog "" finicki appreci "" prodotto migliore "
Poiché la frase contiene" cibo per cani "due volte, desidero questo biogramma due volte. Ma lo sto facendo una volta!
Esiste un'opzione nella libreria di thengram o in qualsiasi altra libreria che fornisce tutti i bi-grammi della mia frase in R?