C'è un modo per eseguire foresta casuale su file di grandi dimensioni (circa 10 Gb) XDF (rivoluzione R formato)? Ovviamente posso provare rxReadXdf e copiarlo in un dataframe ... ma la mia macchina ha solo RAM da 8 GB e potrei avere a che fare con set di dati ancora più grandi in futuro. Ad esempio, utilizzando il ciclo foreach, mi piace correre 1000 alberi sulla mia macchina quad core:a caso Foresta su grandi file XDF senza leggere in un dataframe
#'train.xdf" is a 10gb training data set
rf<- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %do%
randomForest(amount2~.,data="train", ntree=ntree, importance=TRUE,
na.action=na.omit, replace=FALSE)
Ma foresta casuale non è in grado di prendere in (un XDF) file "treno". C'è un modo per eseguire la foresta casuale direttamente su xdf senza leggere in un dataframe?
Cheers, agsub
Non penso sia possibile, ma non ho mai lavorato con i file xdf. Vorrei invece provare a dividere i dati in blocchi più piccoli, addestrare foreste casuali su quelli e costruire un modello finale sulle migliori caratteristiche di tutti i blocchi combinati. È piuttosto ingombrante però. – Backlin
Ya che è probabilmente il modo in cui me ne andrò per ora – thiakx
Il lato positivo di esso è che se l'analisi dei dati è stato facile non avrei un lavoro :) – Backlin