La mia reazione iniziale a questa domanda è che non ha mostrato molta ricerca sforzo, poiché "tutti" sanno che le foreste casuali non gestiscono i valori mancanti nei predittori. Ma dopo aver controllato ?randomForest
devo confessare che potrebbe essere molto più esplicito a riguardo.
(Anche se, Breiman di PDF legato alla nella documentazione dice esplicitamente che i valori mancanti sono semplicemente non trattati affatto.)
L'unico indizio evidente nella documentazione ufficiale che ho potuto vedere è che il valore predefinito per il parametro na.action
è na.fail
, che potrebbe essere troppo criptico per i nuovi utenti.
In ogni caso, se i predittori hanno valori mancanti, si ha (praticamente) due scelte:
- utilizzare uno strumento diverso (
rpart
maniglie mancante valori ben.)
- imputare i valori mancanti
Non sorprende che il pacchetto randomForest
abbia una funzione per fare proprio questo, rfImpute
. La documentazione su ?rfImpute
passa attraverso un esempio di base del suo utilizzo.
Se solo un numero ridotto di casi presenta valori mancanti, è possibile provare a impostare na.action = na.omit
in modo da eliminare tali casi.
E naturalmente questa risposta è un po 'un'ipotesi che il tuo problema è semplicemente avere dei valori mancanti.
Nel suo stato attuale, questa domanda sarà molto difficile da rispondere. Puoi aggiornare la tua domanda con alcuni dati di esempio? – Chase
@ MattO'Brien Divertente anche il fatto che la qualità di una domanda sia discussa in base al viewcount e non nel merito della domanda stessa. E la risposta, dal momento che @ Joran non ha avuto problemi a capire cosa viene chiesto e fornito quella che sembra essere una buona soluzione per il problema del richiedente. – user7610