2011-10-13 7 views
6

Quale pacchetto open source è il migliore per raggruppare un grande corpus di documenti? Dovrebbe decidere il numero di cluster da solo o anche accettarlo come parametro.Qual è il miglior pacchetto open source di clustering di documenti?

Abbiamo un grande corpus di documenti che non ruotano attorno a un argomento particolare: sono documenti prodotti da personale di vendita e di gestione su vari progetti e clienti dell'organizzazione. So che avere un corpus così diffuso ridurrà le prestazioni, ma stiamo cercando di vivere con il meglio che possiamo ottenere. Ora, qual è la migliore che possiamo ottenere :-)

risposta

4

un elenco di software di modellazione argomento dalla homepage di un esperto in materia: http://www.cs.princeton.edu/~blei/topicmodeling.html

Un gruppo concorrente principale (con codice sorgente aperto): http://nlp.stanford.edu/software/tmt/tmt-0.3/

Un altro progetto sorgente Java open: http://mallet.cs.umass.edu/topics.php

+0

Ciao, è qualcosa di profondamente cambiato nel frattempo? Ho trovato questo fantastico strumento: https://code.google.com/p/maui-indexer/ – Kiril