Sto cercando di ottenere il numero ottimale di argomenti per un modello LDA all'interno di Gensim. Un metodo che ho trovato è quello di calcolare la verosimiglianza dei log per ciascun modello e confrontarli l'uno con l'altro, ad es. a The input parameters for using latent Dirichlet allocationQual è il modo migliore per ottenere il numero ottimale di argomenti per un modello LDA utilizzando Gensim?
Quindi ho guardato nel calcolo della probabilità di log di un LDA-modello con Gensim e sono imbattuto seguente post: How do you estimate α parameter of a latent dirichlet allocation model?
in cui si afferma in sostanza che il metodo update_alpha() implementa il metodo di misura descritto nel Huang, Jonathan . Stima della massima verosimiglianza dei parametri di distribuzione di Dirichlet. Ancora non so come ottenere questo parametro usando la libreria senza modificare il codice.
Come posso ottenere la verosimiglianza di registro da un modello LDA con Gensim?
C'è un modo migliore per ottenere un numero ottimale di argomenti con Gensim?
È possibile trovare una risposta sul "migliore" numero di argomenti qui: http://stackoverflow.com/questions/31729227/how-to-evaluate-the-best-k-for-lda-using-mallet. In sostanza, ciò che chiami il miglior numero di argomenti dipende da ciò che vuoi vedere nei dati. – jknappen
Sei riuscito a trovare la probabilità? – Peanut