Quali sono i dati bootstrap nel data mining?

recentemente mi sono imbattuto in questo termine, ma in realtà non ho idea di cosa si riferisca. Ho cercato online, ma con poco guadagno. Grazie.Quali sono i dati bootstrap nel data mining?

fonte

2010-09-16 Kevin

Se non si dispone di dati sufficienti per addestrare l'algoritmo, è possibile aumentare le dimensioni del set di allenamento (in modo uniforme) selezionando casualmente gli elementi e duplicandoli (con la sostituzione).

fonte

2010-09-18 14:02:14

In machine learning il bootstrap è un allenamento iterativo su un set noto. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)

fonte

2010-09-16 09:35:21 leonm

non è super utile fornire semplicemente un collegamento a wikipedia. è abbastanza facile da trovare da soli :) –

Prendi un campione dell'ora del giorno in cui ti svegli il sabato. Alcune notti del venerdì hai un po 'troppi drink, quindi ti svegli presto (ma torna a letto). Altri giorni ti svegli in un momento normale. Altri giorni si dorme in

ecco i risultati:.

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

qual è il tempo medio che ti svegli?

Bene, è 6.8 (in punto o 6:48). Un tocco presto per me.

Quanto è buona la previsione quando ti svegli il prossimo sabato? Puoi quantificare quanto potresti essere sbagliato?

È un campione piuttosto piccolo, e non siamo sicuri della distribuzione del processo sottostante, quindi potrebbe non essere una buona idea usare le tecniche statistiche parametriche e il pugnale.

Perché non prendiamo un campione casuale del nostro campione e calcoliamo il valore medio e lo ripetiamo? Questo ci fornirà una stima di quanto sia pessima la nostra stima.

ho fatto più volte, e la media era tra 5,98 e 7,8

Questo è chiamato il bootstrap, ed è stata la prima volta da Bradley Efron nel 1979.

Una variante è chiamato jackknife, dove si campiona tutto tranne uno dei set di dati, si prende la media e si ripete. La media di jackknife è 6.8 (uguale alla media aritmetica) e va da 6.4 a 7.2.

Un'altra variante è chiamata convalida incrociata di k-fold, in cui è (a caso) dividere il set di dati in k sezioni uguali, calcolare la media di tutte le sezioni tranne una, e ripetere k volte. Il mezzo di convalida incrociata 5 volte è 6,8 e va da 4 a 9

e dagger; Questa distribuzione è normale. L'intervallo di confidenza al 95% della media va da 5,43 a 8,11, ragionevolmente vicino ma più grande della media di bootstrap.

fonte

2010-11-30 08:22:22

Eventuali documenti/pensieri critici su possibili pregiudizi introdotti dal bootstrap? –

Vorrei prendere il tempo di leggere l'originale: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –

Quali sono i dati bootstrap nel data mining?

risposta

Problemi correlati