Sto provando a fare qualche k-means in cluster su una matrice molto grande.k-significa il clustering in R su una matrice molto grande e sparsa?
La matrice è di circa 500000 righe x 4000 colonne ma molto sparse (solo un paio di valori "1" per riga).
Il tutto non si adatta alla memoria, quindi l'ho convertito in un file ARFF sparsi. Ma ovviamente R non può leggere il formato di file ARFF sparsi. Ho anche i dati come un semplice file CSV.
Esiste un pacchetto disponibile in R per caricare in modo efficiente tali matrici sparse? Vorrei quindi utilizzare l'algoritmo k-means normale dal pacchetto cluster per procedere.
Grazie
Grazie per la risposta! Ho un'altra domanda però :-) Sto cercando di eseguire bigkmeans con un numero cluster di circa 2000 ad esempio "clust <- bigkmeans (mymatrix, centres = 2000)" Tuttavia, viene visualizzato il seguente errore: Errore in 1: (10 + 2^k): il risultato sarebbe un vettore troppo lungo Qualcuno potrebbe darmi un suggerimento su cosa sto facendo male qui? Grazie! – movingabout
Originale all'indirizzo http://stackoverflow.com/questions/3177827/clustering-on-very-large-sparse-matrix –