Sto cercando una classe o un metodo che richiede una lunga stringa di molti 100s di parole e tokenizes, rimuove le parole stop e stems per l'utilizzo in un sistema IR.Tokenizer, Stop Word Removal, Stemming in Java
Ad esempio:
"La grande gatto grasso, detto 'il tuo ragazzo più divertente che io so' per il canguro ..."
il tokenizzatore eliminerebbe la punteggiatura e ritorno un ArrayList
di parole
la parola fermata rimozione eliminerebbe parole come "il", "a", ecc
lo stemmer ridurrebbe ogni parola alla loro 'radice', ad esempio 'più divertente' sarebbe divertente
Molte grazie in anticipo.
ehi! @ jitter andando Lucene non aiuta?bisogno di un link più specifico – jsroyal