2016-01-27 65 views
6

Ho intenzione di fare un po 'di ottimizzazione dei dati sui miei dati.Come prevedere il nome corretto del paese per il nome del paese fornito dall'utente?

Situazione -Ho un dato che ha un campo country. Contiene nomi dei paesi di input dell'utente (Potrebbe contenere errori di ortografia o nomi di paesi diversi per lo stesso paese come Stati Uniti/Stati Uniti/Stati Uniti per gli Stati Uniti). Ho una lista di nomi di paesi corretti.

Cosa voglio - Per prevedere quale paese più vicino si sta riferendo a. Ad esempio, se viene fornito U.S., verrà modificato in USA (nome del paese corretto nella nostra lista).

Esiste un modo per farlo utilizzando Java o opennlp o qualsiasi altro metodo?

risposta

3

È possibile utilizzare Getty API. Vi darà le abbreviazioni del nome del paese. Gioca su questa API.

O

È inoltre possibile utilizzare Levenshtein Distance per ottenere la maggior parte nome del paese vicino.

Provalo. Ti aiuterò.

+0

Levenshtein La distanza è utile !! Ma il problema è, per un paese come 'USA', se i dati hanno' Stati Uniti 'allora la distanza arriverà molto più di quello che dovrebbe essere !! – AngryLeo

+0

@AyushBanka: A quell'ora puoi utilizzare l'API che ho aggiunto in risposta. Questo [codice Git] (https://gist.github.com/maephisto/9228207) potrebbe aiutarti. Puoi aggiungere nel tuo. – iNikkz

0

Puoi provare la posizione di auto completa di Google api nella casella di testo o selezionare. se userai questa api allora otterrai google come auto completa intellisence durante la digitazione. visit link

+0

Voglio fare l'ottimizzazione dei dati nel back-end con i dati che ho ottenuto. Non sono sicuro che il completamento automatico sarà utile. Correggimi se ho torto – AngryLeo

0

Se le informazioni sulla città o lo stato sono sterilizzate, è possibile dare un'occhiata al paese.

È anche possibile definire alias nell'elenco dei nomi dei paesi e puntare gli alias sulla notazione preferita. Ad esempio, Stati Uniti, Stati Uniti e Stati Uniti sono tutti alias degli Stati Uniti. È possibile fare in modo che il programma si aggiunga al database alias in modo che venga migliorato man mano che viene utilizzato. Potresti aver fatto più passaggi sui dati e anche una certa quantità di lavoro manuale è coinvolto.