Ho due file di sottotitoli. Ho bisogno di una funzione che indica se rappresentano lo stesso testo o il testo simileAlgoritmo di similarità del testo
A volte ci sono commenti come "Il vento soffia ... la musica è in riproduzione" in un solo file. Ma l'80% percento dei contenuti sarà lo stesso. La funzione deve restituire VERO (i file rappresentano lo stesso testo). E a volte ci sono errori di ortografia come 1 invece di l (uno - L) come qui: Lei lascia il bagaglio. Ovviamente, significa che la funzione deve restituire VERO.
I miei commenti:
La funzione deve restituire la percentuale della somiglianza dei testi - concordare
"tutte le persone erano felici" e "tutte le persone non erano contenti" - qui che sarebbe considerato come un errore di ortografia, quindi sarebbe considerato lo stesso testo. Per essere precisi, la percentuale restituita dalla funzione sarà inferiore, ma abbastanza alta da dire che le frasi sono simili
Considerare se si desidera applicare Levenshtein su un intero file o solo una stringa di ricerca - non sono sicuro di Levenshtein, ma l'algoritmo deve essere applicato al file nel suo complesso. Sarà una stringa molto lunga, però.
La funzione deve restituire la percentuale della somiglianza dei testi e decidi la soglia per VERO o FALSO. – YOU
Dovrai essere molto attento ai tuoi criteri di somiglianza e penso che questa possa essere la parte più difficile di quello che stai cercando di fare.Ad esempio "tutta la gente era felice" e "tutto il popolo non era felice" sono simili testualmente, ma del tutto opposti in termini di significato. Alcuni esempi di testo simile e dissimile potrebbero essere utili. – glenatron
Dai un'occhiata a Soundex (http://en.wikipedia.org/wiki/Soundex) e vedi se è qualcosa che stai cercando. –