Voglio risolvere il problema di suddivisione delle parole (parsing word from long string senza spazi). Per esempio vogliamo estrarre le parole da somelongword
a [some, long, word]
.Approccio statistico di divisione delle parole
Possiamo ottenere questo risultato con un approccio dinamico con il dizionario, ma un altro problema che incontriamo è quello di analizzare l'ambiguità. Cioè orcore
=>or core
o orc ore
(Non prendiamo in considerazione il significato della frase o parte del discorso). Quindi penso all'utilizzo di un approccio statistico o ML.
Ho trovato che l'algoritmo di Naive Bayes e Viterbi con set di treni può essere utilizzato per risolvere questo. Puoi indicarmi alcune informazioni sull'applicazione di questi algoritmi al problema della divisione delle parole?
UPD: Ho implementato questo metodo su Clojure, utilizzando alcuni consigli da Peter Norvig di code
Grazie, buon punto di partenza. Ho trovato molti snippet di codice utili sul sito di Peter Norvig. – mishadoff
La presentazione è stata rimossa per qualche motivo. –