2016-01-20 30 views
5

Sto facendo un po 'di PNL dove sto scoprendo quando ai pazienti è stata diagnosticata la sclerosi multipla.C'è un modo per dire a NLTK che una certa parola non è un nome proprio ma un nome?

Mi piacerebbe usare nltk per dirmi che il nome di una frase era la sclerosi multipla. Il problema è che i medici fanno spesso riferimento alla sclerosi multipla come MS che nltk preleva come nome proprio.

Ad esempio, questa frase "La sua SM è stata diagnosticata nel 1999". È contrassegnato come: [('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]

MS dovrebbe essere un nome qui. Eventuali suggerimenti?

+1

Il riconoscimento di entità con nome è un problema difficile. Prova [questo] (http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages). –

+0

Attualmente si utilizzano i Tagger POS predefiniti. In tal caso, è necessario addestrare il proprio corpus includendo i valori taggati POS corretti. Se non si tratta di un meccanismo di ripiego, è necessario disporre di un altro livello di correzione degli errori dopo aver utilizzato il modello POS Tagger corpus predefinito. – Renien

+0

Qual è la fonte dei dati? È possibile condividere? C'è una lista di parole/frasi/abbreviazioni che vuoi che siano sempre sostantivi? Hai dati taggati? Qual è il dominio dei dati? Qual è lo scopo ultimo del tagging POS? Rispondere a queste domande restringerebbe le soluzioni alle tue domande. – alvas

risposta

0

Riassumendo in su, sono disponibili le seguenti opzioni:

  1. Correzione del tag nel post-elaborazione - un po 'brutto, ma semplice e veloce.
  2. Impiegare un esterno Nome identificatore di entità (Stanford NER come @Bob Dylan ha suggerito): questo è più coinvolto, in particolare perché Stanford NER è in Java e non è particolarmente veloce.
  3. Riqualificare un POS Tagger su dati specifici del dominio (avete un grande insieme di dati abbastanza annotazioni di usarlo per questo?)
  4. Usa WSD approccio (disambiguazione di senso) - per cominciare è necessario disporre di un buon dizionario di dominio da usare.