Sto cercando di implementare l'algoritmo di clustering Canopy insieme a K-Means. Ho fatto qualche ricerca online che dice di usare Canopy clustering per ottenere i punti di partenza iniziale per alimentare K-means, il problema è, in Canopy clustering, è necessario specificare 2 valori di soglia per il baldacchino: T1 e T2, dove i punti nella soglia interna sono fortemente legati a quella vela e i punti nella soglia più ampia sono meno legati a quella vela. Come vengono determinate queste soglie o distanze dal centro della chioma? contestoCome selezionare i valori di soglia T1 e T2 per Canopy Clustering?
Problema:
Il problema che sto cercando di risolvere è, ho una serie di numeri, come [1,30] o [1.250] con misure serie di circa 50. Non ci può essere elementi duplicati e possono anche essere numeri in virgola mobile, come 8, 17.5, 17.5, 23, 66, ... Voglio trovare i cluster ottimali, o sottoinsiemi dell'insieme di numeri.
Quindi, se Canopy di clustering con K-means è una buona scelta, quindi le mie domande si trova ancora: come si fa a trovare il T1, T2 valori ?. Se questa non è una buona scelta, c'è un algoritmo migliore, più semplice ma efficace da usare?
Ecco un'altra domanda simile http://stats.stackexchange.com/questions/13895/how-do-i-a-gorithmically-determine-values-of-t1-t2-for-canopy-clustering – cyraxjoe
Hai avuto fortuna con questo ancora? Sto cercando di utilizzare Canopy Clustering per trovare un set di cluster iniziale da alimentare con K-Means. Potrei usare il "Jump Method", come descritto [qui] (http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set) (che suona simile al metodo @rpd descrive nella sua risposta), ma se hai trovato un buon modo per determinare T1 e T2 mi piacerebbe usare Canopy Clustering. – JesseBuesking