Ho bisogno di calcolare la somiglianza del coseno tra stringhe in una lista. Ad esempio, ho una lista di oltre 10 milioni di stringhe, ogni stringa deve determinare la somiglianza tra se stessa e ogni altra stringa nella lista. Qual è l'algoritmo migliore che posso usare per eseguire in modo efficiente e rapido tale compito? L'algoritmo divide et impera è applicabile?Come calcolare in modo efficiente la somiglianza del coseno tra milioni di stringhe
EDIT
voglio per determinare quali stringhe sono più simile ad una stringa ed essere in grado di avere una misura/punteggio associato con la somiglianza. Penso che ciò che voglio fare coincida con il clustering in cui inizialmente non si conosce il numero di cluster.
Per definizione del problema, si avrà una complessità di esecuzioni O (n²) del calcolo della somiglianza del coseno. – Xion345
@ Xion345 Sì, è accettabile per dati così grandi? Non penso che sia – Kennedy
Devi usare una programmazione dinamica per questo. Vedi *** [this] (http://en.wikipedia.org/wiki/Approximate_string_matching) *** link –