Sto cercando di utilizzare knn in R (usato diversi pacchetti (knnflex
, class
)) per prevedere la probabilità di default basata su 8 variabili. Il set di dati è di circa 100k linee di 8 colonne, ma la mia macchina sembra avere difficoltà con un campione di 10k linee. Qualche suggerimento per fare knn su un set di dati> 50 righe (es. iris
)?Set di dati knn large
EDIT:
Per chiarire ci sono un paio di questioni.
1) Gli esempi nei pacchetti class
e knnflex
sono un po 'poco chiaro e io ero curioso di sapere se ci fosse qualche implementazione simile al pacchetto foresta casuale in cui si dà la variabile che si desidera prevedere e i dati che si desidera utilizzare per il training del modello:
RF <- randomForest(x, y, ntree, type,...)
poi girarsi e utilizzare il modello per prevedere i dati utilizzando il set di dati di test:
pred <- predict(RF, testData)
2) io non sono davvero capire perché knn
vuole trainin g E dati di test per la costruzione del modello. Da quello che posso dire, il pacchetto crea una matrice ~ su nrows(trainingData)^2
che sembra essere anche un limite superiore alla dimensione dei dati previsti. Ho creato un modello utilizzando 5000 righe (sopra a # ho ottenuto errori di allocazione della memoria) e non sono stato in grado di prevedere i set di test> 5000 righe. Così avrei bisogno di uno:
a) trovare un modo per utilizzare> 5000 linee in un training set
o
b) trovare un modo per utilizzare il modello sulle piene 100k linee.
Basta chiedersi, fino a che punto è riuscito a spingere questo - in termini di dimensioni del set di allenamento? – ktdrv
@ktdrv: credo di essere riuscito a eseguire l'intero set di dati. Vorrei raccomandare l'implementazione knn nel pacchetto 'caret' per 2 motivi. Prima consente di sintonizzare il parametro 'k'. In secondo luogo, è il modello knn più veloce che ho usato e consente la parallelizzazione (anche se non ho visto un enorme pick-up per roba intricata). Ecco una buona serie di spiegazioni ed esempi per ottenere installato e funzionante: http://www.jstatsoft.org/v28/i05/paper – screechOwl