Ho un caso d'uso in cui ho bisogno di fare la corrispondenza fuzzy di milioni di record da più file. Ho identificato due algoritmi per questo: Jaro-Winkler e Levenshtein modifica distanza. Quando ho i
Voglio usare le funzioni di similarità delle stringhe per trovare dati corrotti nel mio database. mi sono imbattuto in alcuni di loro: Jaro, Jaro-Winkler, Levenshtein, euclidea e Q-gram, I volevo sape