Ho lavorato su java per trovare la somiglianza tra due documenti. Preferisco trovare una somiglianza semantica, ma non ho fatto sforzi per trovarlo ancora. Sto usando il seguente approccio.Python vs Java per l'elaborazione del linguaggio naturale
- termini di estrazione/gettoni (sto usando JAWS con wordnet rimuovere sinonimi migliora quindi le somiglianze)
- fare una matrice termine documento
- LSA
- coseno di similitudine
Quando i Stavo guardando poche pagine StackOverflow, ho avuto parecchi collegamenti alle implementazioni Python.
Vorrei sapere se Python è un linguaggio migliore per trovare la somiglianza di testo e vorrei anche sapere se posso trovare similairty semantica tra due documenti in pitone
Tutto ciò che puoi fare in Python, puoi anche farlo in Java (con abbastanza lavoro). Detto questo, esiste [Natural Language Toolkit] (http://www.nltk.org/) che è una libreria Python che fornisce molti strumenti per l'elaborazione del linguaggio naturale. –