2013-02-25 17 views
16

Java - opennlpopennlp chunker e postag risultati

Sono nuovo di opennlp e sto cercare di analizzare la sentenza e hanno il tag postale e risultato pezzo, ma non riuscivo a capire i valori di significato. Esiste una tabella in grado di spiegare il significato del tag post e dei valori dei pezzi interi?

tag
Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .] 
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .] 
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O] 

risposta

12

Il POS sono dalla Penn Treebank tagset. I pezzi sono frasi nominali (NP), frasi verbali (VP) e preposizioni (PP). "B- .." segna l'inizio di una frase del genere, "I- .." significa qualcosa come "interiore", cioè la frase continua qui (vedi OpenNLP docs).

10

S -> Simple clausola dichiarativa, cioè uno che non è introdotto da un (eventuale vuoto) subordinare congiunzione o un wh-parola e che non presenta soggetto-verbo inversione.

SBAR -> Clausola introdotta da una congiunzione subordinata (eventualmente vuota).

SBARQ -> Domanda diretta introdotta da una wh-word o una wh-phrase. Le domande indirette e le relative clausole devono essere tra parentesi come SBAR, non SBARQ.

SINV -> Frase dichiarativa invertita, cioè una in cui il soggetto segue il verbo teso o modale.

SQ -> Inverso si/no domanda, o clausola principale di una wh-domanda, seguendo la frase bianca in SBARQ.

ADJP -> Frase Adjective.

ADVP -> Frase di Avverbio.

CONJP -> Conjunction Phrase.

FRAG -> Frammento.

INTJ -> Interiezione. Corrisponde approssimativamente al tag parte del discorso UH.

LST -> Indicatore elenco. Include punteggiatura circostante.

NAC -> Non un Costituente; utilizzato per mostrare l'ambito di alcuni modificatori prenominali all'interno di un NP.

NP -> Noun Phrase.

NX -> Utilizzato all'interno di determinati NP complessi per contrassegnare la testa del NP. Corrisponde molto approssimativamente a N-bar

PP -> Frase preposizionale.

PRN -> Parenthetical.

PRT -> Particella. Categoria per parole che dovrebbero essere taggate RP.

QP -> Quantifier Phrase (cioè misura complessa/frase di quantità); utilizzato all'interno di NP.

RRC -> Clausola relativa ridotta.

UCP -> A differenza della frase coordinata.

VP -> Frase verbale.

WHADJP -> Frase aggettivale di Wh. Frase adjectival contenente un wh-avverbio, come in quanto a caldo.

WHAVP -> Frase di Wh-avverbio. Introduce una clausola con un gap NP. Può essere nullo (contenente il complemento 0) o lessicale, contenente un wh-avverbio come come o perché.

WHNP -> Wh-nome Frase. Introduce una clausola con un gap NP. Può essere nullo (contenente il complemento 0) o lessicale, contenente un po 'di wh-word, ad es. chi, quale libro, la cui figlia , nessuno dei quali, o come molti leopardi.

WHPP -> Frase preposizionale di Wh. Frase prepositica contenente un sostantivo wh frase (quale di cui o dalla cui autorità) che introduce uno spazio vuoto o è contenuto da un WHNP.

X -> Sconosciuto, incerto o non cumulabile. X viene spesso utilizzato per il bracketing degli errori di battitura e tra parentesi le ... le-costruzioni.

credito: http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%[email protected].com%3E

2

Si prega di fare riferimento alla POSTag list per ottenere i dettagli tag.

tag Chunk come "B-NP" sono costituiti da due o tre parti:
Prima parte:

B - marks the beginning of a chunk 
I - marks the continuation of a chunk 
E - marks the end of a chunk 

Come un pezzo, può essere solo una parola lunga (come "Lei" nell'esempio sopra), può essere sia l'inizio che la fine di un blocco allo stesso tempo.

Seconda parte:

NP - noun chunk 
VP - verb chunk 

Per ulteriori riferimento è possibile consultare la OpenNLP Documentation.