Buon set di dati per l'analisi dei sentimenti?

Sto lavorando all'analisi dei sentimenti e sto utilizzando il set di dati fornito in questo collegamento: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html e ho diviso il set di dati in rapporto 50:50. Il 50% viene utilizzato come campioni di prova e il 50% viene utilizzato come campioni di treno e le caratteristiche estratte dai campioni di treno ed eseguono la classificazione utilizzando il classificatore Weka, ma la precisione di previsione è circa del 70-75%.Buon set di dati per l'analisi dei sentimenti?

Qualcuno può suggerire altri set di dati che possono aiutarmi ad aumentare il risultato? Ho usato unigram, bigram e POStags come mie caratteristiche.

fonte

2014-07-07 user3512562

Puoi provare questo https://www.kaggle.com/data/36745#latest-205286 – Seremonia

ci sono molte fonti per ottenere sentiment analysis set di dati:

enorme ngrams set di dati da parte di Google storage.googleapis.com/books/ngrams/books/datasetsv2.html
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
o si può guardare in questo set di dati globale ML repository: https://archive.ics.uci.edu/ml

In ogni caso, ciò non significa che ti aiuterà a ottenere una maggiore precisione per il tuo set di dati corrente perché il corpus potrebbe essere molto diverso dal set di dati. Oltre a ridurre la percentuale di test rispetto alla formazione, è possibile: testare altri classificatori o mettere a punto tutti gli iperparametri usando un wrapper semiautomatico come CVParameterSelection o GridSearch, o anche auto-weka se si adatta.

È abbastanza raro usare 50/50, 80/20 è un rapporto abbastanza comune. Una pratica migliore è quella di utilizzare: 60% per la formazione, 20% per la convalida incrociata, 20% per i test.

fonte

2014-07-07 21:55:10 doxav

come hai detto se riduco il treno%. Influirà sul processo di apprendimento. Ciò significa che l'apprendimento da campioni minori sarà hard.also se aumento il treno% causerà il sovralimentazione ... ecco perché ho preso il rapporto 50: 5 .. – user3512562

È abbastanza raro usare 50/50, 80/20 è un rapporto abbastanza comune. Una pratica migliore è quella di utilizzare: 60% per la formazione, 20% per la convalida incrociata, 20% per i test. PS: mi ricordo solo di questo enorme set di dati ngram da google http://storage.googleapis.com/books/ngrams/books/datasetsv2.html – doxav

Quanto segue contiene più di 1.578.627 dataset classificati http://thinknook.com/wp -content/uploads/2012/09/Sentiment-Analysis-Dataset.zip o http://ai.stanford.edu/~amaas/data/sentiment/ –

Buon set di dati per l'analisi dei sentimenti?

risposta

Problemi correlati