2012-06-02 13 views
10

Ho cercato su google di questo problema e non riesco a trovare qualcosa che spieghi questo algoritmo in modo semplice ma dettagliato.Perché l'algoritmo C4.5 usa l'eliminazione per ridurre l'albero decisionale e in che modo la potatura influisce sulla precisione della previsione?

Ad esempio, so che l'algoritmo ID3 non utilizza affatto la potatura, quindi se si dispone di una caratteristica continua, i tassi di successo della previsione saranno molto bassi.

Quindi il C4.5 per supportare le caratteristiche continue usa la potatura, ma è questa l'unica ragione?

Inoltre, non riesco proprio a capire nell'applicazione WEKA come esattamente il fattore di confidenza influenzi l'efficienza delle previsioni. Più piccolo è il fattore di confidenza, maggiore sarà la potatura dell'algoritmo, ma qual è la correlazione tra la potatura e l'accuratezza della previsione? Quanto più poti, meglio le previsioni o il peggio?

Grazie

risposta

18

La potatura è un modo per ridurre la dimensione della struttura decisionale. Ciò ridurrà la precisione dei dati di allenamento, ma (in generale) aumenterà la precisione dei dati non visibili. Viene utilizzato per mitigare lo overfitting, in cui si otterrebbe una precisione perfetta sui dati di allenamento, ma il modello (ad esempio l'albero decisionale) che si impara è così specifico che non si applica a nessun dato che ai dati dell'allenamento.

In generale, se si aumenta la potatura, la precisione sul set di allenamento sarà inferiore. Tuttavia, WEKA offre varie cose per stimare meglio l'accuratezza, ovvero la divisione allenamento/test o la convalida incrociata. Se si utilizza la convalida incrociata, ad esempio, si scoprirà un "punto debole" del fattore di confidenza della potatura in un punto in cui prugna abbastanza per rendere l'albero delle decisioni appropriatamente sufficientemente preciso sui dati del test, ma non sacrifica troppa precisione sul dati di allenamento. Dove si trova questo punto dolce tuttavia dipenderà dal tuo problema reale e l'unico modo per determinarlo in modo affidabile è provare.