Anche se questo è l'algoritmo più semplice e tutto ciò che è ritenuto indipendenti, nel caso in cui la classificazione del testo vero e proprio, questo metodo di lavoro grande. E proverei di sicuro questo algoritmo.
KNN è per il clustering, piuttosto che la classificazione. Penso che tu fraintenda la concezione del clustering e della classificazione.
SVM trovi SVC (classificazione) e SVR (regressione) algoritmi turistiche classifica classificazione e previsione. A volte funziona bene, ma dalle mie esperienze, ha cattive prestazioni nella classificazione del testo, in quanto ha elevate esigenze di buoni tokenizers (filtri). Ma il dizionario del set di dati ha sempre token sporchi. La precisione è davvero pessima.
- a caso Forest (albero decisionale)
ho mai provare questo metodo per la classificazione del testo. Perché penso che l'albero delle decisioni abbia bisogno di diversi nodi chiave, mentre è difficile trovare "diversi token chiave" per la classificazione del testo, e la foresta casuale funziona male per le dimensioni sparse.
FYI
Questi sono tutti dalle mie esperienze, ma per il vostro caso, avete modi migliore per decidere quali metodi da usare, ma di provare ogni algoritmo per adattare il vostro modello.
Apache's Mahout è un ottimo strumento per algoritmi di apprendimento automatico. Integra algoritmi di tre aspetti: raccomandazione, clustering e classificazione. Potresti provare questa libreria. Ma devi imparare alcune conoscenze di base su Hadoop.
E per l'apprendimento automatico, weka è un kit di strumenti software per esperienze che integra molti algoritmi.
fonte
2013-07-02 14:10:07
E KNN e naive bayes? – zsh
Pensavo avessi detto che già sapevi come fare quelli. –
sì, voglio sapere qual è il metodo migliore per il mio problema. Ho meno di 10 classi predefinite. – zsh