C'è un modo per dire a NLTK che una certa parola non è un nome proprio ma un nome?

Sto facendo un po 'di PNL dove sto scoprendo quando ai pazienti è stata diagnosticata la sclerosi multipla.C'è un modo per dire a NLTK che una certa parola non è un nome proprio ma un nome?

Mi piacerebbe usare nltk per dirmi che il nome di una frase era la sclerosi multipla. Il problema è che i medici fanno spesso riferimento alla sclerosi multipla come MS che nltk preleva come nome proprio.

Ad esempio, questa frase "La sua SM è stata diagnosticata nel 1999". È contrassegnato come: [('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]

MS dovrebbe essere un nome qui. Eventuali suggerimenti?

fonte

2016-01-20 Spencer Sutton

Il riconoscimento di entità con nome è un problema difficile. Prova [questo] (http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages). –

Attualmente si utilizzano i Tagger POS predefiniti. In tal caso, è necessario addestrare il proprio corpus includendo i valori taggati POS corretti. Se non si tratta di un meccanismo di ripiego, è necessario disporre di un altro livello di correzione degli errori dopo aver utilizzato il modello POS Tagger corpus predefinito. – Renien

Qual è la fonte dei dati? È possibile condividere? C'è una lista di parole/frasi/abbreviazioni che vuoi che siano sempre sostantivi? Hai dati taggati? Qual è il dominio dei dati? Qual è lo scopo ultimo del tagging POS? Rispondere a queste domande restringerebbe le soluzioni alle tue domande. – alvas

Riassumendo in su, sono disponibili le seguenti opzioni:

Correzione del tag nel post-elaborazione - un po 'brutto, ma semplice e veloce.
Impiegare un esterno Nome identificatore di entità (Stanford NER come @Bob Dylan ha suggerito): questo è più coinvolto, in particolare perché Stanford NER è in Java e non è particolarmente veloce.
Riqualificare un POS Tagger su dati specifici del dominio (avete un grande insieme di dati abbastanza annotazioni di usarlo per questo?)
Usa WSD approccio (disambiguazione di senso) - per cominciare è necessario disporre di un buon dizionario di dominio da usare.

fonte

2017-09-01 15:23:23 sophros

C'è un modo per dire a NLTK che una certa parola non è un nome proprio ma un nome?

risposta

Problemi correlati