Sto facendo molte analisi con il pacchetto TM
. Uno dei miei maggiori problemi è legato alla derivazione e alle trasformazioni simili a quelle di tipo stemmingStemming with R Text Analysis
Diciamo che ho diversi termini relativi alla contabilità (sono a conoscenza dei problemi di ortografia).
Dopo derivante abbiamo:
accounts -> account
account -> account
accounting -> account
acounting -> acount
acount -> acount
acounts -> acount
accounnt -> accounnt
Risultato: 3 Termini (conto, acount, conto), dove mi sarebbe piaciuto 1 (account) come tutti questi riguardano lo stesso termine.
1) Per correggere l'ortografia è una possibilità, ma non l'ho mai provato in R. È anche possibile?
2) L'altra opzione è quella di fare una lista di riferimento cioè conto = (conti, conto, contabilità, acounting, acount, acounts, accounnt) e quindi sostituire tutte le occorrenze con il termine master. Come lo farei in R?
Ancora una volta, qualsiasi aiuto/suggerimento sarebbe molto apprezzato.
Ottimo, questo dovrebbe funzionare per me, ma devo compilare manualmente gli elenchi, il che è OK. Molto più controllo di prima. Grazie! – RUser
Ho appena testato questo sui miei dati live - Funziona come un fascino! La parte difficile è prima di tutto identificare tutte le varianti di parole e quindi in qualche modo rendere la lista della costruzione parte più facile/automatizzata. – RUser