Sto provando a prevedere una variabile binaria con entrambe le foreste casuali e la regressione logistica. Ho classi molto squilibrate (circa l'1,5% di Y = 1).Importanza delle caratteristiche della base AUC utilizzando Foresta casuale
Le tecniche caratteristica importanza di default in foreste casuali si basano sulla precisione di classificazione (tasso di errore) - che ha dimostrato di essere una cattiva misura per le classi sbilanciato (vedi here e here).
I due VIM standard per la selezione delle funzioni con RF sono Gini VIM e permutazione VIM. In parole povere, Gini VIM di un predittore di interesse è la somma sulla foresta delle diminuzioni di impurità di Gini generate da questo predittore ogni volta che è stato selezionato per la divisione, scalato in base al numero di alberi.
La mia domanda è: è quel tipo di metodo implementato in scikit-learn (come nel pacchetto R party
)? O forse una soluzione?
PS: Questa domanda è un po 'collegata con an other.
Grazie per aver condiviso l'ultimo link. – Simone