L'attuale Mahout 0.8-SNAPSHOT include una versione Collapsed Variation Bayes (cvb) per Topic Modeling e rimosso l'approccio Latent Dirichlet Analysis (lda), perché il cvb può essere meglio parallelizzato. Sfortunatamente c'è solo documentazione per lda su come eseguire un esempio e generare un output significativo.Esegui cvb in mahout 0.8
Così, voglio:
- preprocess alcuni testi correttamente
- eseguire la versione cvb0_local di CVB
- ispezionare i risultati guardando le n parole top in ciascuno degli argomenti generati
esiste un modo per retrive ogni porcellana temi documen ts? o viceversa, per recuperare argomenti sui documenti? –