8

Ho alcuni post di microblogging senza etichetta e voglio creare un modulo di analisi sentiment.Sentiment Analysis java Library

Per fare questo ho provato il servizio web Stanford library e Alchemy Api ma il risultato non è molto buono. Per ora non voglio addestrare il mio classificatore.

Quindi mi piacerebbe suggerirmi alcune librerie o alcuni servizi web su questo. Preferirei una libreria testata. La lingua di questo post è l'inglese. Anche la pre-elaborazione è stata fatta.

P.S.

Il linguaggio di programmazione che uso è Java EE

+0

Le domande che ci chiedono di ** consigliare o trovare un libro, uno strumento, una libreria software, un'esercitazione o altre risorse fuori sede sono off-topic ** per Stack Overflow in quanto tendono ad attirare risposte e spam. Invece, descrivi il problema e cosa è stato fatto finora per risolverlo. –

+1

P.S. i dati di microblogging (twitter?) di solito sono così schifosi che non c'è da meravigliarsi se gli strumenti di analisi non funzionano molto bene. –

+0

@ Anony-Mousse forse hai ragione. Ma la domanda forse può essere nella categoria: "se la tua domanda riguarda generalmente ... gli strumenti software comunemente usati dai programmatori, allora sei nel posto giusto per porre la tua domanda!" Ma se la mia domanda è davvero fuori tema, voglio scusarmi per questo. – Jimmysnn

risposta

3

Se volete un buon servizio di analisi sentimento e non si vuole per addestrare il proprio classificatore, si deve pagare per questo. Tuttavia, vale la pena ricordare che non esistono strumenti perfetti in questo campo. Non ci sono strumenti che garantiscano il 100% di accuratezza nella loro analisi.

Detto questo, un paio di mesi fa ho giocato con Semantria/Lexalytics. Hanno un semplice SDK Java e una buona precisione sui loro risultati di analisi del sentiment.

+0

Grazie per la risposta. Conosco questi strumenti e i loro risultati. Ma mi piacerebbe utilizzare uno strumento che garantisca il 70% -80 di accuratezza nella loro analisi. Conosci qualche strumento gratuito perché non so se per ora posso utilizzare uno strumento non libero? – Jimmysnn

+0

Non penso ci siano strumenti gratuiti per realizzare questo lavoro. Un paio di mesi fa ho fatto una ricerca su questi strumenti e non ricordo di aver trovato strumenti che soddisfino le tue esigenze. Credo che tu abbia solo due scelte qui. La prima scelta sta pagando per questo. La seconda scelta consiste nell'addestrare il tuo algoritmo, ad esempio utilizzando Google Predict o Mahout. – Marlon

+0

Ok grazie. Il secondo passo è quello di allenare il mio algoritmo. Per ora devo usare uno strumento. – Jimmysnn

9

L'analisi del sentimento non tiene il passo con le promesse.

Vedere ad es.

Il triste stato di Sentiment Analysis
26 Dicembre 2013 da Angela Hausman
http://www.hausmanmarketingletter.com/sad-state-sentiment-analysis/

Esperimenti recenti suggeriscono sentimento analisi dei dati è meno preciso di un lancio della moneta (50% di precisione). È davvero spaventoso se il tuo brand prende decisioni strategiche basate sull'analisi dei sentimenti.

...

Mentre gli strumenti accuratamente previsti tra il 60 e l'80% di enunciati, quando sono stati rimossi espressioni neutre (80% degli enunciati) la precisione sceso allarmante.

In altre parole, ognuno è barare sulle loro punti di riferimento, e overfitting (ad esempio tweets sono tonnellate di duplicati e vicino duplicati - retweet - se si include questi, si sta sopravvalutando le prestazioni reali)

1

LingPipe è uno strumento gratuito (oltre che a pagamento) disponibile per Sentiment Analysis. http://alias-i.com/lingpipe/index.html

Le caratteristiche principali includono:

  1. Sentiment Analysis

  2. Named Entity Recognition

  3. Clustering

  4. topic Classificazione

  5. Lingua Identificazione

ecc

+0

Grazie per la risposta. Ma stavo cercando uno strumento solo per l'analisi dei sentimenti. Inoltre sarà utile indicare se hai provato questo strumento per un dataset di microblog (tweets). – Jimmysnn

+0

Attualmente sto lavorando all'analisi del sentimento di Twitter stessa per le recensioni dei film. Ma sembra che Stanford NLP sia ** NON ** più adatto. Quindi sto cercando di allenare la PNL. A proposito, i risultati sembrano essere influenzati negativamente con il classificatore addestrato iniziale! Inoltre, Stanford NLP è basato sulla "frase". Dove i tweet contengono più di una frase. Inoltre dovremo correggere le ortografie. Sfiga! –