Stavo guardando Stanford NER e pensando di usare JAVA Apis per estrarre l'indirizzo postale da un documento di testo. Il documento può essere qualsiasi documento in cui esiste una sezione di indirizzo postale, ad es. Bollette, bollette elettriche.Utilizzo di Stanford NER per l'estrazione dell'indirizzo da un documento di testo?
Quindi quello che sto pensando come l'approccio è,
- Definire indirizzo postale come entità di nome per la posizione e le altre entità con nome primitivi.
- Definire la segmentazione e altri processi secondari.
Sto cercando di trovare una pipeline di esempio per lo stesso (quali sono i passaggi nei dettagli richiesti), qualcuno ha fatto prima? Suggerimenti benvenuto
Hai una serie di indirizzi di formazione nel testo? –
@GaborAngeli Sì, ho gli indirizzi nel testo per un paese ma non sono etichettati correttamente rispetto a zip, città, indirizzo1, indirizzo2. – yadab
In questo caso, la mia raccomandazione è di raccogliere un set di dati di indirizzi taggati nel testo, e quindi di addestrare qualcosa come il sistema Stanford NER. Oppure, costruisci un sistema basato su regole euristiche da una combinazione di Stanford NER e TokensRegexNER. –