Sto facendo analisi latine di Dirichlet per alcune ricerche e continuo a incorrere in un problema. La maggior parte dei software LDA richiede che i documenti siano in formato doclines, ovvero un file CSV o altro file delimitato in cui ogni riga rappresenta l'interezza di un documento. Tuttavia, il software modello di argomento dinamico Blei's lda-c richiede che i dati siano nel formato: [M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
dove [M]
è il numero di termini univoci nel documento e il [numero] associato a ciascun termine è quante volte quel termine è apparso nello nel documento. Si noti che [term_1]
è un numero intero che indicizza il termine ; non è una stringa.Convertire un documento per linea nel formato lda-c/dtm di Blei per la modellazione degli argomenti?
Qualcuno sa di un'utilità che mi permetterà di convertire rapidamente in questo formato? Grazie.
Incontro problemi simili, trovi le soluzioni? Grazie. – user288609
Non l'ho ancora implementato, ma [questa utility Python] (https://github.com/JoKnopp/text2ldac) è stata pubblicata nella mailing list dei modelli di argomento e dovrebbe prendere i file di testo e convertirli nel formato corretto. – Trey
Grazie mille, è molto utile. – user288609