9

Ci sono tre modi per misurare l'impurità:Albero decisionale Apprendimento e impurità

Entropy

Gini Index

Classification Error

Quali sono le differenze e le appropriate casi di utilizzo per ciascun metodo?

+1

Impurità di cosa? – Davidann

+2

@David: vedere qui: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity e qui: http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-measure-impurity.htm –

risposta

5

Se i p_i di sono molto piccola, quindi facendo moltiplicazione molto piccole numeri (indice di Gini) può portare ad errori di arrotondamento. Per questo motivo, è meglio aggiungere i registri (Entropy). L'errore di classificazione, che segue la tua definizione, fornisce una stima lorda poiché utilizza il singolo p_i più grande per calcolare il suo valore.

+0

Non riesco a vedere come si avrebbero questi problemi nella divisione di un nodo ... I classificatori di foresta casuale utilizzano l'impurità di Gini e sono stati segnalati per avere un'accuratezza superiore rispetto alla maggior parte degli altri classificatori basati su albero. – Benjamin

+2

@ Benjamin: Non vedo nulla nella domanda che è specifico per dividere un nodo. – Davidann

2

Ho trovato this description of impurity measures essere abbastanza utile. A meno che non si stia implementando da zero, la maggior parte delle implementazioni esistenti utilizzano un'unica misura di impurità predeterminata. Si noti inoltre che l'indice Gini non è una misura diretta di impurità, non nella sua formulazione originale e che ce ne sono molti di più di quelli elencati sopra.

Non sono sicuro di comprendere la preoccupazione per i numeri piccoli e la misura delle impurità di Gini ... Non riesco a immaginare come potrebbe accadere quando si divide un nodo.

0

Ho visto vari tentativi di orientamento informale su questo, che vanno da "se si utilizza uno dei soliti parametri, non ci sarà molta differenza", a raccomandazioni molto più specifiche. In realtà, l'unico modo per sapere con certezza quale misura è meglio provare tutti i candidati.

In ogni caso, qui è una prospettiva da sistemi di Salford (CART venditore):

Do Splitting Rules Really Matter?

3

La differenza tra entropia e altre misure di impurità, e di fatto spesso la differenza tra informazione approcci teorici in apprendimento automatico e altri approcci, è che l'entropia è stata provata matematicamente per catturare il concetto di "informazione". Ci sono molti teoremi di classificazione (teoremi che dimostrano una particolare funzione o oggetto matematico è l'unico oggetto che soddisfa un insieme di criteri) per misure di entropia che formalizzano argomenti filosofici che giustificano il loro significato come misure di 'informazione'.

Contrastare questo con altri approcci (in particolare i metodi statistici) scelti non per la loro giustificazione filosofica, ma principalmente per la loro giustificazione empirica - cioè sembrano funzionare bene in esperimenti. Il motivo per cui si comportano bene è perché contengono ulteriori presupposti che possono accadere durante il periodo dell'esperimento.

In termini pratici ciò significa che le misure di entropia (A) non possono essere sovra-adattate se usate correttamente in quanto prive di ipotesi sui dati, (B) hanno maggiori probabilità di ottenere risultati migliori rispetto al caso perché generalizzano a qualsiasi set di dati ma (C) le prestazioni per set di dati specifici potrebbero non essere buone quanto le misure che adottano ipotesi.

Quando si decidono quali misure utilizzare nell'apprendimento automatico, spesso si riducono a guadagni a lungo termine o a breve termine e manutenibilità. Le misure dell'entropia spesso funzionano a lungo termine con (A) e (B), e se qualcosa va storto è più facile rintracciare e spiegare perché (ad esempio un errore nell'ottenere i dati di allenamento).Altri approcci, in (C), potrebbero dare guadagni a breve termine, ma se smettono di funzionare può essere molto difficile da distinguere, ad esempio un bug in infrastruttura con un cambiamento reale nei dati in cui le ipotesi non sono più valide.

Un esempio classico in cui i modelli hanno improvvisamente smesso di funzionare è la crisi finanziaria globale. Banchieri in cui venivano dati dei bonus per i guadagni a breve termine, così hanno scritto modelli statistici che avrebbero dato buoni risultati a modelli teorici dell'informazione a breve termine e largamente ignorati.