Ho cercato di raggruppare un insieme di dati più grande. composto da 50000 vettori di misura con dimensione 7. Sto provando a generare da 30 a 300 cluster per ulteriori elaborazioni.Libreria di clustering su larga scala possibilmente con collegamenti Python
Ho provato le seguenti implementazioni di clustering senza fortuna:
- Pycluster.kcluster (dà solo 1-2 grappoli non vuote sul mio set di dati)
- scipy.cluster.hierarchy.fclusterdata (corre troppo lungo)
- scipy.cluster.vq.kmeans (esaurisce la memoria)
- sklearn.cluster.hierarchical.Ward (corre troppo a lungo)
Esistono altre implementazioni che potrei perdere?
Cosa è successo a k-significa che il tempo di esecuzione è 'O (n * k * i)' con 'k, i << n'? –