2011-04-26 10 views
7

Qualcuno può spiegare cosa significa in realtà l'output del cluster K-Means in WEKA.WEKA K-Means Clustering

Per esempio

kMeans 


Number of iterations: 9 

Within cluster sum of squared errors: 9434.911100488926 

Missing values globally replaced with mean/mode 

Cluster centroids: 

        Cluster# 
Attribute   Full Data   0   1       
         (400)  (310)  (90) 
================================================= 
competency134  0.0425  0.0548   0 
competency207  0.0425  0.0548   0 
competency263   0.01  0.0129   0 
competency264   0.01  0.0129   0 
competency282   0.01  0.0129   0 
competency289   0.01  0.0129   0 

Cosa significano i numeri nelle colonne significano in realtà, si dice centroidi dei cluster sopra il tavolo, ma come è possibile determinare quali sono i baricentri dei due ammassi sono?

Se qualcuno potesse spiegare cosa significano i numeri, sarei molto grato.

Se qualcuno ha qualche idea su come completare una valutazione di sagoma dei cluster trovati sarebbe anche bello.

Grazie

risposta

3

La prima colonna indica il centroide globale della popolazione. La seconda e la terza colonna forniscono i centroidi per il cluster 0 e 1, rispettivamente. Ogni riga fornisce le coordinate del centroide per la dimensione specifica.

Credo che devi rispolverare il tuo K-means. Trovare i centroidi è una parte essenziale dell'algoritmo. I centroidi sono il risultato di una specifica esecuzione dell'algoritmo e non sono unici: una corsa diversa può generare un diverso baricentro.

Vedere Michael Abernethy's description of Weka clustering per ulteriori dettagli.

-1

Utilizzare il valore più frequente per un attributo in un cluster se l'attributo è nominale. Utilizzare il valore medio per un attributo in un cluster se l'attributo è numerico. Controlla this link per maggiori dettagli.

3

solo un primo passo,

  1. Salva la trama dalla scheda visualize come file ARFF.

  2. Aprilo con weka e fai clic su modifica, vedrai automaticamente in quale cluster appartiene ogni istanza.

  3. Copia questa tabella (per visualizzare più facile)

  4. utilizzare Excel o Matlab per trovare silhoutte, la coesione, la separazione con i metodi classici.

+0

ho provato ma ho potuto vedere solo i dati ma non il numero di cluster? – Atul

+0

Ho provato ad applicare il filtro (AddCluster) e ha funzionato. – Atul

+0

Questo lavoro !! Non è necessario applicare il filtro. Basta salvare il file dal riquadro di visualizzazione di weka come file arff e aprirlo in weka. Viene creato un nuovo attributo chiamato "cluster". – Supun

0

Prima il clustering è un metodo statistico descrittivo. In secondo luogo, l'algoritmo Kmeans richiesto per inserire in anticipo il numero di cluster, per trovare il numero ottimale di cluster, diversi metodi statistici. In terzo luogo, i centroidi dei dati numerici sono la media aritmetica dei dati che crea i cluster. Questi dati rappresentano i dati del gruppo.