2015-12-22 19 views
9

Stavo guardando Stanford NER e pensando di usare JAVA Apis per estrarre l'indirizzo postale da un documento di testo. Il documento può essere qualsiasi documento in cui esiste una sezione di indirizzo postale, ad es. Bollette, bollette elettriche.Utilizzo di Stanford NER per l'estrazione dell'indirizzo da un documento di testo?

Quindi quello che sto pensando come l'approccio è,

  1. Definire indirizzo postale come entità di nome per la posizione e le altre entità con nome primitivi.
  2. Definire la segmentazione e altri processi secondari.

Sto cercando di trovare una pipeline di esempio per lo stesso (quali sono i passaggi nei dettagli richiesti), qualcuno ha fatto prima? Suggerimenti benvenuto

+0

Hai una serie di indirizzi di formazione nel testo? –

+0

@GaborAngeli Sì, ho gli indirizzi nel testo per un paese ma non sono etichettati correttamente rispetto a zip, città, indirizzo1, indirizzo2. – yadab

+1

In questo caso, la mia raccomandazione è di raccogliere un set di dati di indirizzi taggati nel testo, e quindi di addestrare qualcosa come il sistema Stanford NER. Oppure, costruisci un sistema basato su regole euristiche da una combinazione di Stanford NER e TokensRegexNER. –

risposta

1

Per essere chiari: tutto il merito va a Raj Vardhan (e John Bauer) che ha avuto un'interazione sulla mailing list [java-nlp-user].

Raj Vardhan ha scritto in merito al piano di lavorare su "trovare un indirizzo in una frase":

Ecco un approccio che ho pensato:

  1. Trova il evento-anchor in una frase
  2. Selezionare i bordi in uscita nel SemanticGraph da tale nodo evento con relazioni come * "prep-in" * o "prep-at".
  3. Se il valore dipendente nella relazione ha tag POS come PNN

a) Trovare in uscita spigoli dal nodo di valore dipendente con relazioni quali come "nn"

b) Collegare tutti tali nodi in ordine crescente di occorrenza nella frase .

c) STAMPA conseguente valore come posizione in cui si è verificato l'evento

Questo è ovviamente con alcune ipotesi quali la dipendenza diretta tra l'evento-ancoraggio e la posizione in una frase.

Non so se questo potrebbe aiutarti, ma volevo menzionarlo per ogni evenienza. Di nuovo, qualsiasi credito dovrebbe andare a Raj Vardhan (e John Bauer).

+0

grazie. Ho intenzione di provare anche questo, ma se la posizione è distribuita su più linee, la segmentazione sta diventando un po 'complicata. Aggiornerò con le mie scoperte – yadab

+0

@yadab come hai capito con questo? Sto cercando di fare qualcosa di simile e non voglio reinventare la ruota. – Todd