2013-01-17 6 views
5

Sto cercando di valutare qual è il numero corretto di cluster necessario per il cluster di alcuni dati.Determinazione del numero ottimale di cluster e indice Davies-Bouldin?

So che questo è possibile utilizzando l'indice Davies-Bouldin (DBI).

Per utilizzare DBI è necessario calcolarlo per qualsiasi numero di cluster e quello che riduce al minimo il DBI corrisponde al numero corretto di cluster necessario.

La domanda è:

Come sapere se 2 grappoli sono meglio di 1 cluster utilizzando DBI? Quindi, come posso calcolare DBI quando ho solo 1 cluster?

risposta

5

Solo considerando la media di DBI di tutti i cluster non è una buona idea.

Certamente, aumentando il numero di cluster - k, senza penalità, sarà sempre ridurre la quantità di DBI nel cluster risultante, al caso estremo zero DBI se ogni punto di dati viene considerata un proprio gruppo (perché ogni punto dati si sovrappone con il proprio centroide).

come sapere se 2 cluster sono meglio di 1 cluster utilizzando DBI? Quindi, come posso calcolare DBI quando ho solo 1 cluster?

Quindi è difficile dire quale è meglio se si utilizza solo la media DBI come metrica di rendimento.

Un buon metodo pratico consiste nell'utilizzare lo Elbow method.

Un altro metodo guarda alla percentuale di varianza spiegata come una funzione del numero di cluster: Si consiglia di scegliere un numero di cluster in modo che l'aggiunta di un altro cluster non dà molto meglio la modellazione dei dati. Più precisamente, se si calcola la percentuale di varianza spiegata dai cluster rispetto al numero di cluster, i primi cluster aggiungeranno molte informazioni (spiegano molta varianza), ma ad un certo punto il guadagno marginale diminuirà, dando un angolo nel grafico. Il numero di cluster viene scelto a questo punto, da qui il "criterio del gomito".

enter image description here

Alcune altre buone alternative con relativa alla scelta del numero ottimale di cluster: