Quindi sto cercando di classificare i testi utilizzando Weka SVM. Finora, i miei vettori di funzionalità utilizzati per addestrare l'SVM sono composti da statistiche TF-IDF per unigram e bigram che appaiono nei testi di addestramento. Ma i risultati ottenuti dal test del modello SVM addestrato non sono stati affatto accurati, quindi qualcuno può darmi un feedback sulla mia procedura? Sto seguendo questa procedura per classificare testi:Elaborazione del linguaggio naturale - Caratteristiche per la classificazione del testo
- Costruire un dizionario fatto di unigrams e bigrammi estratte dai testi di formazione
- contare quante volte ogni unigram/bigram appare in ogni testo di formazione, così come il modo molti formazione testi del unigram/bigram appare in
- Utilizzare i dati dal punto 2 al calcuate TF-IDF per ogni unigram/bigram
- per ogni documento, costruire un vettore caratteristica che è la lunghezza del dizionario, e memorizzare la corrispondente statistica TF-IDF in ogni elemento del vettore (quindi, ad esempio, il primo elemento nel vettore di funzionalità per documento si potrebbe corrispondere al TF-IDF per la prima parola nel relativo dizionario di documentare uno)
- etichetta classe accoda a ciascun vettore di caratteristiche per distinguere quale testo appartiene a quale autore
- ferroviaria SVM utilizzando questi includono vettori
- vettori Caratteristica per i testi di prova sono costruiti allo stesso modo come i testi di formazione, e sono classificati per l'SVM
Inoltre, potrebbe essere che ho bisogno di allenare la SVM con più funzioni? In tal caso, quali caratteristiche sono più efficaci in questo caso? Qualsiasi aiuto sarebbe molto apprezzato, grazie.