Sto usando il loro tag POS predefinito e la tokenizzazione predefinita..e sembra sufficiente. Mi piacerebbe anche il chunker predefinito.Qual è il chunker predefinito per il toolkit NLTK in Python?
Sto leggendo il libro degli strumenti NLTK, ma non sembra che abbiano un chunker predefinito?
E se non sono molto preoccupato per named_entities, ma in generale è un chunking. Ad esempio, "il cane giallo" è un chunk e "sta correndo" è un pezzo. – TIMEX
Sì, per quello, non c'è difetto di conoscenza (anche se non so tutto su nltk, per essere sicuro). Potresti usare un RegexpChunkParser, anche se dovrai sviluppare da solo le regole. C'è un esempio qui: http://gnosis.cx/publish/programming/charming_python_b18.txt – ealdent