Come ottenere gli stessi risultati come http://developer.yahoo.com/search/content/V1/termExtraction.htmlestrazione Termine: Generatings tag su testo
Questa domanda è stato chiesto un bel paio di volte prima.
Cercando di affrontare questo problema con le soluzioni esistenti sono incappato in "Text Analysis" Solr esegue sul documento prima di indicizzazione come descritto in http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - che include anche lo stemming
Quindi l'indice finale consisterà principalmente di termini usati per descrivere il documento.
Esiste una soluzione che fornisce analizzatori, tokenizer e filtri token per l'uso diretto? Se Solr è la via d'uscita, qual è il modo migliore per ottenere questi dati dall'indice di Solr?
sì, i termini Solr restituiranno solo i token univoci (forse meno alcune parole comuni e facendo derivazioni, ecc.). In realtà non ti dirà cosa è significativo nel testo. Per quello che vale puoi succhiare i termini da solr tramite il http://wiki.apache.org/solr/TermsComponent – mlathe