Recentemente mi sono avvicinato alla PNL e ho provato a utilizzare NLTK e TextBlob per analizzare i testi. Mi piacerebbe sviluppare un'app che analizzi le recensioni fatte dai viaggiatori e quindi devo gestire un sacco di testi scritti in diverse lingue. Devo fare due operazioni principali: POS Tagging e lemmatization. Ho visto che in NLTK v'è la possibilità di scelta della lingua giusta per frasi tokenizzazione come questo:NLTK multilingue per tagging POS e Lemmatizer
tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle')
non ho trovato il modo giusto per impostare la lingua per il POS Tagging e Lemmatizer in diverse lingue ancora. Come posso impostare il corpora/dizionario corretto per testi non inglesi come italiano, francese, spagnolo o tedesco? Vedo anche che c'è la possibilità di importare i moduli "TreeBank" o "WordNet", ma non capisco come posso usarli. Altrimenti, dove posso trovare le rispettive società?
Potete darmi qualche suggerimento o riferimento? Per favore, fai attenzione che io non sia un esperto di NLTK.
Molte grazie.
Stavo provando questo tagger per thai ma non sembra funzionare. Mi dà un'intera lunga stringa come NCNM. Deve invece contenere una serie di token? – aceminer
Sì, è necessario eseguire la segmentazione delle parole in tailandese prima di utilizzare il tagger. – NQD