Dire che ho una caratteristica categorica, il colore, che assume i valoriPuò sklearn la foresta casuale gestire direttamente le funzioni categoriali?
[ 'rosso', 'blu', 'verde', 'arancione'],
e voglio usarlo per prevedere qualcosa in una foresta casuale. Se I one lo codifica (cioè lo cambio in quattro variabili dummy), come faccio a dire a sklearn che le quattro variabili dummy sono davvero una variabile? Specificamente, quando sklearn seleziona casualmente le caratteristiche da usare su nodi diversi, dovrebbe includere i manichini rosso, blu, verde e arancione insieme, o non dovrebbe includere nessuno di essi.
Ho sentito che non c'è modo di farlo, ma immagino ci debba essere un modo per gestire le variabili categoriali senza codificarle arbitrariamente come numeri o qualcosa del genere.
Questa è stata una utile e duratura richiesta di miglioramento su sklearn dal 2014. Una considerazione era se avrebbero dovuto dare la priorità all'implementazione del nuovo [panda Categorico] (http://pandas.pydata.org/pandas-docs/stable /categorical.html) o numpy generico. – smci