Sto usando LDA dal pacchetto topicmodels e l'ho eseguito su circa 30.000 documenti, ho acquisito 30 argomenti e ho ottenuto le 10 parole migliori per gli argomenti, sono molto belli. Ma mi piacerebbe vedere quali documenti appartengono a quale argomento con la più alta probabilità, come posso farlo?LDA con topicmodels, come posso vedere a quali argomenti appartengono diversi documenti?
myCorpus <- Corpus(VectorSource(userbios$bio))
docs <- userbios$twitter_id
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
removeURL <- function(x) gsub("http[[:alnum:]]*", "", x)
myCorpus <- tm_map(myCorpus, removeURL)
myStopwords <- c("twitter", "tweets", "tweet", "tweeting", "account")
# remove stopwords from corpus
myCorpus <- tm_map(myCorpus, removeWords, stopwords('english'))
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
# stem words
# require(rJava) # needed for stemming function
# library(Snowball) # also needed for stemming function
# a <- tm_map(myCorpus, stemDocument, language = "english")
myDtm <- DocumentTermMatrix(myCorpus, control = list(wordLengths=c(2,Inf), weighting=weightTf))
myDtm2 <- removeSparseTerms(myDtm, sparse=0.85)
dtm <- myDtm2
library(topicmodels)
rowTotals <- apply(dtm, 1, sum)
dtm2 <- dtm[rowTotals>0]
dim(dtm2)
dtm_LDA <- LDA(dtm2, 30)
La questione circa l'assegnazione di nuovi documenti a un modello esistente è stato chiesto e ha risposto qui: http: // StackOverflow. it/a/16120518/1036500 – Ben