In che modo l'implementazione R degli alberi di regressione potenziata (pacchetto gbm) gestisce di default i valori mancanti delle variabili predittive? Sono imputati e se lo sono, in base a quale algoritmo?R: In che modo gli alberi di regressione potenziati si occupano dei dati mancanti?
Sfondo della mia domanda: ho fatto l'analisi quasi un anno fa e ho usato gli script forniti da Elith et al. 2008 (Una guida di lavoro agli alberi di regressione potenziati, Journal of Animal Ecology 77, 802-813) per invocare gbm. Ora mi sono reso conto che avevo delle NA per alcune delle variabili predittive e mi chiedo come hanno affrontato gli alberi di regressione potenziati. Sfogliando vari manuali e documenti ho trovato affermazioni come "alberi di regressione potenziati possono contenere valori mancanti" e simili, ma non sono riuscito a trovare una descrizione precisa di cosa sta facendo gbm con i valori mancanti. L'analisi stessa ha funzionato senza problemi, quindi gbm deve averli affrontati in un modo o nell'altro. Nel manuale gbm c'è anche un esempio in cui vengono deliberatamente introdotte le NA per dimostrare che gbm continua a funzionare senza problemi. Ora mi piacerebbe sapere cosa fa esattamente gbm con le NA (saltarle, imputarle, ...?).
Questa domanda sembra essere fuori argomento, perché si tratta di implementazione di un algoritmo statistico. È forse più adatto per Cross Validated. –
@ SimonO101: ho dubitato di quale sarebbe stato il forum giusto. Lo posterò su Crossvalidated. – user7417
Mi piacerebbe lasciarlo un po '- il sito è gestito dalla comunità. Se il consenso è che questo è fuori tema allora la domanda si chiuderà e saprete chiederlo sul CV. Al momento, sono solo io che penso che sia più adatto al CV! –