sto lavorando cercando di catalogare automaticamente brevi articoli e sto cercando di capire come abbinare parole simili - ad esempio, ripiano o la pittura e ridipingerecome avrei potuto fare una partita di ricerca per parole simili
I sto usando l'algoritmo Porter di derivazione, ma aiuta solo in certe situazioni e solo con la fine della parola (entrambi gli esempi sopra non funzionano con esso).
Esiste un algoritmo o elenchi di parole correlate che avrebbe aiutato con qualcosa di simile (al di fuori di fare il mio?)
(sto lavorando in php in modo eventuali soluzioni in quella lingua sarebbe più utile.)
Un particolare problema con Levenshtein in questo tipo di contesto è che devi trovare una buona soglia; restituisce solo il numero di modifiche tra le due parole. C'è una bella differenza tra i due esempi nel post originale: levenshtein ("shelf", "shelf") = 3, levenshtein ("painting", "repaint") = 5. –
come riferimento - Ho trovato http : //stackoverflow.com/questions/634995/implementation-of-levenshtein-distance-for-mysql-fuzzy-search che contiene un collegamento ad alcune versioni di una stored procedure mysql. Anche se, come ha sottolineato Jan, non è ancora chiaro quanto arriverà. Ma vale la pena provare. – Yehosef
Questa è la risposta più vicina - non è l'ideale, ma un buon inizio. L'elenco delle parole di gennaio è più ideale ma non è pratico a questo punto. – Yehosef