2015-03-29 16 views
11

quando digito il testo, ottengo molti codici nell'output come NN, VBD, IN, DT, NNS, RB. C'è una lista documentata da qualche parte che mi dice il significato di questi? Ho provato a cercare su google nltk chunk codenltk chunk grammarnltk chunk tokens.Che cosa significa NN VBD IN DT NNS RB significa in NLTK?

Ma non sono in grado di trovare alcuna documentazione che spieghi cosa significano questi codici.

risposta

9

I tag che si vedono non sono il risultato dei blocchi, ma il tagging POS che avviene prima di chunking. E 'l'insieme di tag Penn Treebank, vedi https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk 
>>> sent = "This is a Foo Bar sentence." 
# POS tag. 
>>> nltk.pos_tag(word_tokenize(sent)) 
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')] 
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent)) 
# Chunk. 
>>> ne_chunk(tagged_sent) 
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')]) 

per ottenere i pezzi cercano sottostrutture entro le uscite Chunked. Dall'output precedente, lo Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) indica il blocco.

Questo sito di tutorial è molto utile per spiegare il processo di chunking in NLTK, http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf.

Per la documentazione ufficiale, vedere http://www.nltk.org/howto/chunk.html

0

Come detto da Alvas di cui sopra, questi tag sono parte del discorso che indica se una parola/frase è Noun frase, avverbio, determinante, verbo ecc ...

Ecco i dettagli di POS Tag che è possibile fare riferimento.

Chunking recovers the phrased from the Part of speech tags 

È possibile fare riferimento questo link per la lettura per circa suddivisione in blocchi.