dataset è pandas dataframe. Questo è sklearn.cluster.KMeansL'oggetto dataframe panda funziona con il clustering di kmi di sklearn?
km = KMeans(n_clusters = n_Clusters)
km.fit(dataset)
prediction = km.predict(dataset)
È così decido quale entità appartiene a quale cluster:
for i in range(len(prediction)):
cluster_fit_dict[dataset.index[i]] = prediction[i]
Ecco come appare insieme di dati:
A 1 2 3 4 5 6
B 2 3 4 5 6 7
C 1 4 2 7 8 1
...
dove A, B , C sono indici
È questo il modo corretto di usare k-means?
La tua domanda è un po 'poco chiara, sklearn accetta array numpy come input in generale e quindi i datafram di pandas sono compatibili, in alcuni casi ho scoperto che è necessario chiedere un array numpy così: 'df.values' o df. col.values' come esempio, quindi in pratica dovrebbe funzionare, per favore prova e se colpisci un ostacolo torna con codice e dati – EdChum