Sto provando a lavorare con il pacchetto tm in R, e ho un file CSV di feedback dei clienti con ogni riga che è una diversa istanza di feedback. Voglio importare tutto il contenuto di questo feedback in un corpus ma voglio che ogni riga sia un documento diverso all'interno del corpus, in modo da poter confrontare il feedback in una matrice DocTerms. Ci sono oltre 10.000 righe nel mio set di dati.R documenti di estrazione testo dal file CSV (una riga per documento)
Originariamente ho fatto la seguente:
fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")
Questo crea un corpus con 1 documenti e> 10.000 righe, e voglio> 10.000 documenti con 1 riga ciascuno.
Immagino di poter avere solo 10.000 documenti CSV o TXT separati all'interno di una cartella e creare un corpus da quello ... ma penso che ci sia una risposta molto più semplice di quella, leggendo ogni riga come documento separato .