2015-08-31 28 views
5

Sto cercando di ottenere il numero ottimale di argomenti per un modello LDA all'interno di Gensim. Un metodo che ho trovato è quello di calcolare la verosimiglianza dei log per ciascun modello e confrontarli l'uno con l'altro, ad es. a The input parameters for using latent Dirichlet allocationQual è il modo migliore per ottenere il numero ottimale di argomenti per un modello LDA utilizzando Gensim?

Quindi ho guardato nel calcolo della probabilità di log di un LDA-modello con Gensim e sono imbattuto seguente post: How do you estimate α parameter of a latent dirichlet allocation model?

in cui si afferma in sostanza che il metodo update_alpha() implementa il metodo di misura descritto nel Huang, Jonathan . Stima della massima verosimiglianza dei parametri di distribuzione di Dirichlet. Ancora non so come ottenere questo parametro usando la libreria senza modificare il codice.

Come posso ottenere la verosimiglianza di registro da un modello LDA con Gensim?

C'è un modo migliore per ottenere un numero ottimale di argomenti con Gensim?

+0

È possibile trovare una risposta sul "migliore" numero di argomenti qui: http://stackoverflow.com/questions/31729227/how-to-evaluate-the-best-k-for-lda-using-mallet. In sostanza, ciò che chiami il miglior numero di argomenti dipende da ciò che vuoi vedere nei dati. – jknappen

+0

Sei riuscito a trovare la probabilità? – Peanut

risposta

1

Anche se non posso commentare Gensim in particolare, posso valutare con alcuni consigli generali per ottimizzare i tuoi argomenti.

Come hai affermato, l'utilizzo della probabilità di registro è un metodo. Un'altra opzione è mantenere un insieme di documenti trattenuti dal processo di generazione del modello e inferire gli argomenti su di essi quando il modello è completo e controllare se ha senso.

Un metodo completamente diverso che è possibile provare è un processo di Dirichlet gerarchico, questo metodo può trovare il numero di argomenti nel corpus in modo dinamico senza essere specificato.

Ci sono molti articoli su come specificare meglio i parametri e valutare il vostro modello di argomento, a seconda del vostro livello di esperienza questi possono o non possono essere un bene per voi:

Rethinking LDA: Why Priors Matter, Wallach, HM, Mimno, D. McCallum, A.

Evaluation Methods for Topic Models, Wallach HM, Murray, I., Salakhutdinov, R. e Mimno, D.

Inoltre, ecco la carta sul gerarchica processo Dirichlet:

Hierarchical Dirichlet Processes, Teh, Y.W., Jordan, M.I., Beal, M.J. e Blei, D.M.