2010-09-16 5 views

risposta

24

Se non si dispone di dati sufficienti per addestrare l'algoritmo, è possibile aumentare le dimensioni del set di allenamento (in modo uniforme) selezionando casualmente gli elementi e duplicandoli (con la sostituzione).

35

Prendi un campione dell'ora del giorno in cui ti svegli il sabato. Alcune notti del venerdì hai un po 'troppi drink, quindi ti svegli presto (ma torna a letto). Altri giorni ti svegli in un momento normale. Altri giorni si dorme in

ecco i risultati:.

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

qual è il tempo medio che ti svegli?

Bene, è 6.8 (in punto o 6:48). Un tocco presto per me.

Quanto è buona la previsione quando ti svegli il prossimo sabato? Puoi quantificare quanto potresti essere sbagliato?

È un campione piuttosto piccolo, e non siamo sicuri della distribuzione del processo sottostante, quindi potrebbe non essere una buona idea usare le tecniche statistiche parametriche e il pugnale.

Perché non prendiamo un campione casuale del nostro campione e calcoliamo il valore medio e lo ripetiamo? Questo ci fornirà una stima di quanto sia pessima la nostra stima.

ho fatto più volte, e la media era tra 5,98 e 7,8

Questo è chiamato il bootstrap, ed è stata la prima volta da Bradley Efron nel 1979.

Una variante è chiamato jackknife, dove si campiona tutto tranne uno dei set di dati, si prende la media e si ripete. La media di jackknife è 6.8 (uguale alla media aritmetica) e va da 6.4 a 7.2.

Un'altra variante è chiamata convalida incrociata di k-fold, in cui è (a caso) dividere il set di dati in k sezioni uguali, calcolare la media di tutte le sezioni tranne una, e ripetere k volte. Il mezzo di convalida incrociata 5 volte è 6,8 e va da 4 a 9

e dagger; Questa distribuzione è normale. L'intervallo di confidenza al 95% della media va da 5,43 a 8,11, ragionevolmente vicino ma più grande della media di bootstrap.

+0

Eventuali documenti/pensieri critici su possibili pregiudizi introdotti dal bootstrap? –

+1

Vorrei prendere il tempo di leggere l'originale: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –