Sono un nuovo utente di R, cercando di allontanarmi da SAS. Sto facendo questa domanda qui perché mi sento un po 'frustrato con tutti i pacchetti e le fonti disponibili per R, e non riesco a farlo funzionare principalmente a causa della dimensione dei dati.Come campionare un grande database e implementare K-means e K-nn in R?
Ho il seguente:
una tabella denominata SOURCE in un database locale MySQL con 200 funzioni predittive e una variabile di classe. Il tavolo ha 3 milioni di record ed è grande 3 GB. Il numero di istanze per classe non è uguale.
voglio:
- Un campione a caso il database di origine per creare un set di dati più piccola di con uguale numero di istanze per classe.
- Dividere il campione in training e set di test.
- Preform k: indica il clustering sul set di addestramento per determinare k centroidi per classe.
- Preform k-NN classificazione dei dati di test con centroidi.
Benvenuti in So! Ti suggerisco: ** Pacchetto RMysqlite ** per estrarre i tuoi dati, * funzione * esempio (pacchetto ** base **) per il campionamento! * Funzione kmeans * (pacchetto ** base **)! * knn * function (pacchetto ** class **) – agstudy
Come gestire i dati di grandi dimensioni? Il problema con il database, il pre-campionamento viene tenuto in memoria. Ha solo RAM da 4 GB. – erichfw
Prova a utilizzare il motore di database per eseguire la selezione casuale: http://stackoverflow.com/q/580639/269476. – James