2009-07-15 9 views
8

Sto costruendo un albero di classificazione binario utilizzando mutual information gain come funzione di divisione. Ma dal momento che i dati di allenamento sono orientati verso poche classi, è consigliabile pesare ciascun esempio di allenamento in base alla frequenza della classe inversa.Alberi decisionali ponderati che utilizzano Entropy

Come si pesano i dati di allenamento? Quando si calcolano le probabilità per stimare l'entropia, devo calcolare le medie ponderate?

MODIFICA: Vorrei un'espressione per l'entropia con i pesi.

+0

Non è la frequenza della classe inversa il fattore di ponderazione? –

+0

Sì, come menzionato nella domanda, "è consigliabile ponderare ogni esempio di allenamento con la frequenza della classe inversa." – Jacob

+0

Immagino che tu sappia già delle informazioni Wiki. Allora, che problema stai cercando di risolvere? –

risposta

4

L'articolo di Wikipedia che hai citato entra nella ponderazione. Si dice:

varianti calibrati
Nella formulazione tradizionale della reciproca informazione,

alt text

ogni evento o oggetto specificato da (x, y) è ponderato per la probabilità relativa p (x, y). Ciò presuppone che tutti gli oggetti o gli eventi siano equivalenti a parte la loro probabilità di accadimento. Tuttavia, in alcune applicazioni può accadere che determinati oggetti o eventi siano più significativi di altri o che determinati modelli di associazione siano più semanticamente importanti di altri.

Ad esempio, la mappatura deterministica {(1,1), (2,2), (3,3)} può essere vista come più forte (secondo alcuni standard) rispetto alla mappatura deterministica {(1,3), (2,1), (3,2)}, anche se queste relazioni darebbero la stessa informazione reciproca. Questo perché la mutua informazione non è affatto sensibile a qualsiasi ordinamento inerente nei valori delle variabili (Cronbach 1954, Coombs & Dawes 1970, Lockhead 1970), e quindi non è affatto sensibile alla forma della mappatura relazionale tra le variabili associate . Se si desidera che il primo rapporto - mostrando accordo su tutti i valori delle variabili - essere giudicata più forte del rapporto tardi, allora è possibile utilizzare la seguente informazione mutua ponderata (Guiasu 1977)

alt text

che pone un peso w (x, y) sulla probabilità di co-occorrenza di ciascuna variabile, p (x, y). Ciò consente che determinate probabilità possano avere più o meno significato di altre, consentendo in tal modo la quantificazione di fattori olistici o praganti importanti. Nell'esempio sopra, l'uso di pesi relativi più grandi per w (1,1), w (2,2) e w (3,3) avrebbe l'effetto di valutare una maggiore informatività per la relazione {(1,1), (2,2), (3,3)} che per la relazione {(1,3), (2,1), (3,2)}, che può essere desiderabile in alcuni casi di riconoscimento di pattern e simili.

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

+0

Sì, me ne sono reso conto. Speravo in una versione ponderata di entropia. Io uso varie stime di entropia per calcolare un punteggio simile alle informazioni mutue. – Jacob