È possibile applicare RandomForests a set di dati molto piccoli? Ho un set di dati con molte variabili ma solo 25 osservazioni ciascuna. Le foreste casuali producono risultati ragionevoli con errori OOB bassi (10-25%). Esiste qualche regola empirica riguardo al numero minimo di osservazioni da utilizzare? Infatti una variabile di risposta è sbilanciata, e se ho intenzione di sottocampione, finirò con un numero ancora più piccolo di osservazioni. Grazie in anticipoNumero minimo di osservazioni durante l'esecuzione di Foresta casuale
5
A
risposta
3
Assolutamente RF può essere utilizzato su questo tipo di set di dati (ad es. P> n). Infatti usano RF in campi come la genomica dove il numero di campi> = 20000 e ci sono solo un numero molto piccolo di righe - diciamo 10-12. L'intero problema è capire quale delle 20k variabili costituirebbe un indicatore parsimonioso (cioè la selezione delle caratteristiche è l'intero problema).
Non ho alcun ROT sulla dimensione minima se non se il modello non funziona bene su un campione trattenuto (o la convalida incrociata Hold-One-Back potrebbe funzionare bene nel tuo caso) bene allora dovresti provare qualcos'altro.
Spero che questo aiuti
Quante funzioni contiene il set di allenamento? – jonnydedwards
Contiene 33 predittori e 4 variabili di risposta (dovrei eseguire 4 RF) – Oritteropus
controllare [questo] (http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size- for-multiple-regression) per l'euristica. – jonnydedwards