recentemente mi sono imbattuto in questo termine, ma in realtà non ho idea di cosa si riferisca. Ho cercato online, ma con poco guadagno. Grazie.Quali sono i dati bootstrap nel data mining?
risposta
Se non si dispone di dati sufficienti per addestrare l'algoritmo, è possibile aumentare le dimensioni del set di allenamento (in modo uniforme) selezionando casualmente gli elementi e duplicandoli (con la sostituzione).
In machine learning il bootstrap è un allenamento iterativo su un set noto. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)
Prendi un campione dell'ora del giorno in cui ti svegli il sabato. Alcune notti del venerdì hai un po 'troppi drink, quindi ti svegli presto (ma torna a letto). Altri giorni ti svegli in un momento normale. Altri giorni si dorme in
ecco i risultati:.
[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]
qual è il tempo medio che ti svegli?
Bene, è 6.8 (in punto o 6:48). Un tocco presto per me.
Quanto è buona la previsione quando ti svegli il prossimo sabato? Puoi quantificare quanto potresti essere sbagliato?
È un campione piuttosto piccolo, e non siamo sicuri della distribuzione del processo sottostante, quindi potrebbe non essere una buona idea usare le tecniche statistiche parametriche e il pugnale.
Perché non prendiamo un campione casuale del nostro campione e calcoliamo il valore medio e lo ripetiamo? Questo ci fornirà una stima di quanto sia pessima la nostra stima.
ho fatto più volte, e la media era tra 5,98 e 7,8
Questo è chiamato il bootstrap, ed è stata la prima volta da Bradley Efron nel 1979.
Una variante è chiamato jackknife, dove si campiona tutto tranne uno dei set di dati, si prende la media e si ripete. La media di jackknife è 6.8 (uguale alla media aritmetica) e va da 6.4 a 7.2.
Un'altra variante è chiamata convalida incrociata di k-fold, in cui è (a caso) dividere il set di dati in k sezioni uguali, calcolare la media di tutte le sezioni tranne una, e ripetere k volte. Il mezzo di convalida incrociata 5 volte è 6,8 e va da 4 a 9
e dagger; Questa distribuzione è normale. L'intervallo di confidenza al 95% della media va da 5,43 a 8,11, ragionevolmente vicino ma più grande della media di bootstrap.
Eventuali documenti/pensieri critici su possibili pregiudizi introdotti dal bootstrap? –
Vorrei prendere il tempo di leggere l'originale: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –
non è super utile fornire semplicemente un collegamento a wikipedia. è abbastanza facile da trovare da soli :) –