2009-07-28 7 views
10

Sto giocando con l'analisi dei sentimenti e sto cercando alcuni dati seme. C'è un dizionario gratuito in giro?Dati seme per analisi sentiment

Può essere davvero semplice: 3 set di testi/frasi, per "positivo", "negativo", "neutro". Non deve essere enorme.

Eventualmente probabilmente genererò i miei dati seme per il mio caso d'uso specifico, ma sarebbe bello avere qualcosa con cui giocare ora mentre sto costruendo la cosa.

+0

ho la Bing Lui e Minqing Hu set di dati (Circa 7000 recensioni da circa 9 prodotti su Amazon.com) li ho messi su un foglio Excel con il punteggio medio combinato di ognuno di essi. Ho anche aggiunto il punteggio di 3 diverse API di analisi del sentimento libero dal Web (ViralHeat, AlchemyAPI, API di ripubblicazione) se si desidera che il foglio Excel possa darlo a voi. – SKandeel

+1

http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon – zengr

+0

@SherifMaherEaid: come si crea il proprio dizionario dagli articoli? – user123

risposta

3

Se sei interessato ai dizionari dei sentimenti, molti autori hanno presentato lavori basati su elenchi costruiti manualmente e altri metodi semi automatizzati per ottenere elenchi di termini formulati. Un buon approccio consiste nel derivare dal database WordNet estendendo un nucleo di parole positive/negative utilizzando relazioni come sinonimi, ecc.

Un buon esempio di elenco creato manualmente è lo General Inquirer.

Per un metodo semiautomatico che deriva gli elenchi, dai un'occhiata a SentiWordNet da Esuli e Sebastiani.

Questi credo sono generalmente disponibili per la ricerca, ma potrebbe essere necessario contattare gli autori per quanto riguarda l'uso di queste risorse per scopi non di ricerca.

B.

1

È possibile utilizzare l'elenco di parole AFINN qui:

http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010

AFINN è una lista di parole inglesi adatti per una valenza con un numero intero tra meno cinque (negativo) e più cinque (positivo). Le parole hanno lo etichettato manualmente da Finn Årup Nielsen nel 2009-2011. Il file è separato da tabulazioni. Esistono due versioni:

AFINN-111: la versione più recente con 2477 parole e frasi.

AFINN-96: 1468 parole e frasi univoche su 1480 linee. Notare che lo sono 1480 linee, poiché alcune parole sono elencate due volte. L'elenco di parole non è interamente in ordine alfabetico.