Ho intenzione di fare un po 'di ottimizzazione dei dati sui miei dati.Come prevedere il nome corretto del paese per il nome del paese fornito dall'utente?
Situazione -Ho un dato che ha un campo country
. Contiene nomi dei paesi di input dell'utente (Potrebbe contenere errori di ortografia o nomi di paesi diversi per lo stesso paese come Stati Uniti/Stati Uniti/Stati Uniti per gli Stati Uniti). Ho una lista di nomi di paesi corretti.
Cosa voglio - Per prevedere quale paese più vicino si sta riferendo a. Ad esempio, se viene fornito U.S.
, verrà modificato in USA
(nome del paese corretto nella nostra lista).
Esiste un modo per farlo utilizzando Java o opennlp o qualsiasi altro metodo?
Levenshtein La distanza è utile !! Ma il problema è, per un paese come 'USA', se i dati hanno' Stati Uniti 'allora la distanza arriverà molto più di quello che dovrebbe essere !! – AngryLeo
@AyushBanka: A quell'ora puoi utilizzare l'API che ho aggiunto in risposta. Questo [codice Git] (https://gist.github.com/maephisto/9228207) potrebbe aiutarti. Puoi aggiungere nel tuo. – iNikkz