Il tag di riconoscimento della parte del discorso incorporato del pacchetto nltk
non sembra essere ottimizzato per il mio caso d'uso (here, for instance). Il source code here mostra che sta utilizzando un classificatore salvato e pre-addestrato chiamato maxent_treebank_pos_tagger
.Cosa ha creato `maxent_treebank_pos_tagger/english.pickle`?
Cosa creato maxent_treebank_pos_tagger/english.pickle
? Immagino che ci sia un corpus taggato là fuori da qualche parte che è stato usato per addestrare questo tagger, quindi penso che sto cercando (a) quel taggato corpus e (b) il codice esatto che allena il tagger in base al taggato corpus.
Oltre a un sacco di googling, finora ho cercato di guardare l'oggetto .pickle
direttamente per trovare qualche indizio al suo interno, a partire da come questo
from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)
Non del tutto sicuro, ma credo che il corpus utilizzato è il [Penn Treebank] (https: //www.cis.upenn.edu/~treebank/) – Igor
@Igor, il codice sorgente che mi è piaciuto sopra sembra essere d'accordo. Sfortunatamente, sembra che i dati di Penn Treebank non siano gratuiti per il pubblico, il che per lo più risponde alla mia domanda: https://catalog.ldc.upenn.edu/LDC99T42 – zkurtz