Sto facendo un po 'di PNL dove sto scoprendo quando ai pazienti è stata diagnosticata la sclerosi multipla.C'è un modo per dire a NLTK che una certa parola non è un nome proprio ma un nome?
Mi piacerebbe usare nltk per dirmi che il nome di una frase era la sclerosi multipla. Il problema è che i medici fanno spesso riferimento alla sclerosi multipla come MS che nltk preleva come nome proprio.
Ad esempio, questa frase "La sua SM è stata diagnosticata nel 1999". È contrassegnato come: [('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]
MS dovrebbe essere un nome qui. Eventuali suggerimenti?
Il riconoscimento di entità con nome è un problema difficile. Prova [questo] (http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages). –
Attualmente si utilizzano i Tagger POS predefiniti. In tal caso, è necessario addestrare il proprio corpus includendo i valori taggati POS corretti. Se non si tratta di un meccanismo di ripiego, è necessario disporre di un altro livello di correzione degli errori dopo aver utilizzato il modello POS Tagger corpus predefinito. – Renien
Qual è la fonte dei dati? È possibile condividere? C'è una lista di parole/frasi/abbreviazioni che vuoi che siano sempre sostantivi? Hai dati taggati? Qual è il dominio dei dati? Qual è lo scopo ultimo del tagging POS? Rispondere a queste domande restringerebbe le soluzioni alle tue domande. – alvas