Aggiungendo alle due risposte precedenti, poiché hai menzionato una semplice spiegazione. Ecco una recensione che ritengo sia il modo più semplice per spiegare le foreste casuali.
Supponiamo che tu sia molto indeciso, quindi ogni volta che vuoi guardare un film, chiedi al tuo amico Willow se pensa che ti piacerà. Per rispondere, Willow deve prima capire quali film ti piacciono, quindi le dai un sacco di film e dirle se ti è piaciuto o meno (cioè, le dai un set di formazione etichettato). Poi, quando le chiedi se pensa che ti piacerà il film X oppure no, gioca con un gioco di 20 domande con IMDB, facendo domande come "X è un film romantico?", "Johnny Depp recita in X?" , e così via. Prima chiede più domande informative (cioè, massimizza il guadagno di informazioni di ogni domanda) e ti dà una risposta sì/no alla fine.
Quindi, Willow è un albero decisionale per le preferenze dei tuoi film.
Ma Willow è solo umano, quindi non sempre generalizza le tue preferenze molto bene (cioè, si veste troppo). Per ottenere consigli più accurati, ti piacerebbe chiedere a un gruppo di amici e guardare il film X se molti di loro dicono che pensano che ti piacerà. Cioè, invece di chiedere solo Willow, vuoi chiedere anche a Woody, Apple e Cartman, e votano se ti piacerà un film (ad esempio, in questo caso costruisci un classificatore d'insieme, ovvero una foresta).
Ora non vuoi che tutti i tuoi amici facciano la stessa cosa e ti diano la stessa risposta, quindi prima dai a ciascuno di loro dati leggermente diversi. Dopotutto, non sei assolutamente sicuro delle tue preferenze tu stesso - hai detto a Willow che amavi Titanic, ma forse quel giorno lo sei stato solo felice perché era il tuo compleanno, quindi forse alcuni dei tuoi amici non dovrebbero usare il fatto che ti piaceva Titanic nel fare le loro raccomandazioni. O forse le hai detto che amavi Cenerentola, ma in realtà l'amavi davvero tanto, quindi alcuni dei tuoi amici dovrebbero dare più peso a Cenerentola. Quindi, invece di dare ai tuoi amici gli stessi dati che hai dato a Willow, dai loro versioni leggermente perturbate. Non cambi le tue decisioni di amore/odio, dici solo che ami/odi alcuni film un po 'di più o meno (formalmente, dai a ciascuno dei tuoi amici una versione bootstrap dei tuoi dati di allenamento originali). Ad esempio, mentre tu dicevi a Willow che ti piacevano Black Swan e Harry Potter e amavi Avatar, dici a Woody che ti piaceva tanto il Black Swan che lo guardavi due volte, che non amavi Avatar e che non menzionassi affatto Harry Potter.
Utilizzando questo ensemble, è la speranza che, mentre ciascuno dei vostri amici dà raccomandazioni po idiosincratici (Willow si pensa come i film sui vampiri più di te, Woody si pensa come i film Pixar, e Cartman pensa basta odio tutto), il gli errori vengono cancellati nella maggioranza. Così, i tuoi amici ora formano una foresta insaccata (bootstrap aggregata) delle preferenze del tuo film.
C'è ancora un problema con i dati, tuttavia. Mentre amavi sia Titanic che Inception, non è perché ti piacciono i film che hanno come protagonista Leonardo DiCaprio. Forse ti sono piaciuti entrambi i film per altri motivi. Quindi, non vuoi che i tuoi amici basino le loro raccomandazioni su se Leo è in un film o no. Quindi, quando ogni amico chiede a IMDB una domanda, è consentito solo un sottoinsieme casuale delle possibili domande (cioè, quando si sta costruendo un albero decisionale, in ogni nodo si usa un po 'di casualità nella selezione dell'attributo da suddividere, ad esempio selezionando casualmente un attributo o selezionando un attributo da un sottoinsieme casuale). Ciò significa che ai tuoi amici non è permesso chiedere se Leonardo DiCaprio è nel film ogni volta che lo desidera. Quindi, mentre in precedenza hai iniettato casualità a livello di dati, perturbando leggermente le tue preferenze, ora stai iniettando casualità a livello di modello, facendo in modo che i tuoi amici facciano domande diverse in momenti diversi.
E così i tuoi amici ora formano una foresta casuale.
https: //www.quora.com/Foreste casuali/How-do-random-forests-work-in-laymans-terms – CoryKramer