class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)
Sto utilizzando un modello di foresta casuale con 9 campioni e circa 7000 attributi. Di questi campioni, ci sono 3 categorie che il mio classificatore riconosce.Come sintonizzare i parametri in Random Forest, utilizzando Scikit Learn?
So che questo è lontano dalle condizioni ideali, ma sto cercando di capire quali attributi sono i più importanti nelle previsioni delle funzionalità. Quali parametri sarebbe il migliore da ottimizzare per ottimizzare l'importanza della funzione?
Ho provato diverso n_estimators
e ho notato che la quantità di "caratteristiche significative" (vale a dire valori diversi da zero nell'array feature_importances_
) aumentava notevolmente.
Ho letto la documentazione, ma se qualcuno ha esperienza in questo, vorrei sapere quali parametri sono i migliori per sintonizzarsi e una breve spiegazione per quale motivo.
grazie mille! quello che stavo facendo era istanziare iterativamente un modello, prendendo gli attributi non-zero dell'array "feature_importances_", aggiungendoli a un contatore, prendendo quelli più popolari. È un modo ingenuo? Dovrei basarlo più su variabile importanza. –