ho segnato alcune parti in grassetto.
In sintesi, questo sembra suggerire che i dati di allenamento e di test dovrebbero entrambi
speranza che aiutano S.
In alcuni set di dati, l'errore di predizione tra le classi è altamente sbilanciato. Alcune classi hanno un errore di predizione basso, altre un alto. Ciò si verifica in genere quando una classe è molto più grande di un'altra. Quindi le foreste casuali di , cercando di ridurre al minimo il tasso di errore complessivo, manterranno basso il tasso di errore sulla classe grande, mentre le classi più piccole hanno un tasso di errore più elevato. Ad esempio, nel caso di una molecola data classificata come attiva o meno, è comune avere gli attivati superati in numero da 10 a 1, fino a 100 a 1. In queste situazioni il tasso di errore sull'interessante classe (actives) sarà molto alta.
L'utente può rilevare lo sbilanciamento emettendo i tassi di errore per le singole classi . Per illustrare i dati sintetici 20 dimensionali è utilizzato . La classe 1 si verifica in un gaussiano sferico, classe 2 su un altro. Viene generato un set di allenamento di 1000 classi 1 e 50 di classe 2, insieme a con un set di prova di 5000 classi 1 e 250 classi 2.
L'output finale di un bosco di 500 alberi su questi dati è:
500 3,7 0,0 78,4
v'è una bassa errore globale insieme di test (3,73%), ma in classe 2 ha più di 3/4 delle sue cause errate.
Il bilanciamento degli errori può essere eseguito impostando pesi diversi per le classi.
Più alto è il peso di una classe, più il suo tasso di errore è diminuito. Una guida su quali pesi dare è di renderli inversamente proporzionali alle popolazioni di classe. Quindi impostare i pesi su 1 in classe 1 e 20 su classe 2 ed eseguire di nuovo. L'output è:
500 12,1 12,7 0,0
il peso di 20 sulla classe 2 è troppo alta. Impostare a 10 e riprovare, ottenendo:
500 4,3 4,2 5,2
Questo è abbastanza vicino al pareggio. Se si desidera il bilanciamento esatto, il peso dello sulla classe 2 potrebbe oscillare un po 'di più.
Si noti che per ottenere questo equilibrio, il tasso di errore generale è aumentato. Questo è il solito risultato: per ottenere un migliore equilibrio, l'errore complessivo verrà aumentato.