2013-07-09 8 views
5

È possibile applicare RandomForests a set di dati molto piccoli? Ho un set di dati con molte variabili ma solo 25 osservazioni ciascuna. Le foreste casuali producono risultati ragionevoli con errori OOB bassi (10-25%). Esiste qualche regola empirica riguardo al numero minimo di osservazioni da utilizzare? Infatti una variabile di risposta è sbilanciata, e se ho intenzione di sottocampione, finirò con un numero ancora più piccolo di osservazioni. Grazie in anticipoNumero minimo di osservazioni durante l'esecuzione di Foresta casuale

+0

Quante funzioni contiene il set di allenamento? – jonnydedwards

+0

Contiene 33 predittori e 4 variabili di risposta (dovrei eseguire 4 RF) – Oritteropus

+1

controllare [questo] (http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size- for-multiple-regression) per l'euristica. – jonnydedwards

risposta

3

Assolutamente RF può essere utilizzato su questo tipo di set di dati (ad es. P> n). Infatti usano RF in campi come la genomica dove il numero di campi> = 20000 e ci sono solo un numero molto piccolo di righe - diciamo 10-12. L'intero problema è capire quale delle 20k variabili costituirebbe un indicatore parsimonioso (cioè la selezione delle caratteristiche è l'intero problema).

Non ho alcun ROT sulla dimensione minima se non se il modello non funziona bene su un campione trattenuto (o la convalida incrociata Hold-One-Back potrebbe funzionare bene nel tuo caso) bene allora dovresti provare qualcos'altro.

Spero che questo aiuti