Sto cercando di pulire il corpus e ho usato le fasi tipiche, come il codice qui sotto:Preventivo e trattini non rimossi con le funzioni del pacchetto tm durante la pulizia corpus
docs<-Corpus(DirSource(path))
docs<-tm_map(docs,content_transformer(tolower))
docs<-tm_map(docs,content_transformer(removeNumbers))
docs<-tm_map(docs,content_transformer(removePunctuation))
docs<-tm_map(docs,removeWords,stopwords('en'))
docs<-tm_map(docs,stripWhitespace)
docs<-tm_map(docs,stemDocument)
dtm<-DocumentTermMatrix(docs)
Eppure, quando ho ispezionare la matrice ci sono poche parole che vengono con le citazioni, come ad esempio: "noi" "azienda" "codice linee guida" -known accelerato via
sembra che le parole stesse sono dentro le virgolette, ma quando provo per eseguire rimuovere Il codice di punteggiatura di nuovo non funziona. Inoltre ci sono alcune parole con i proiettili di fronte a quello che non posso rimuovere.
Qualsiasi aiuto sarebbe molto apprezzato.
Potresti fornire un esempio riproducibile? –
Mi dispiace, non capisco perfettamente 'esempio riproducibile'? – anonymous
http://stackoverflow.com/help/mcve – RHertel