Sto leggendo che posso creare i vettori di mahout da un indice di lucene che può essere utilizzato per applicare gli algoritmi di clustering di mahout. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene documento clustering howto?
vorrei applicare K-means algoritmo nei documenti in mio indice Lucene, ma non è chiaro in che modo posso applicare questo algoritmo (o clustering gerarchico) per estrarre cluster significativi con questi documenti.
In questa pagina http://cwiki.apache.org/confluence/display/MAHOUT/k-Means afferma che l'algoritmo accetta due directory di input: una per i punti di dati e una per i cluster iniziali. I miei punti dati sono i documenti? Come posso "dichiarare" che questi sono i miei documenti (oi loro vettori), semplicemente li prendo e lo fanno in cluster?
dispiace in anticipo per il mio povero grammatica
Grazie
sì che è Non riesco a capire. Qual è l'output? come posso vedere nell'output che ad esempio i documenti 5 e 8 si trovano nello stesso cluster? – maiky