Sto tentando di eseguire la selezione delle funzionalità valutando le uscite dei coefficienti di regressione e selezionando le caratteristiche con i coefficienti di magnitudine più elevati. Il problema è che non so come ottenere le rispettive funzionalità, poiché vengono restituiti solo i coefficienti dall'attributo coef._. La documentazione dice:Scikit: impara la regressione lineare come ottenere le rispettive caratteristiche del coefficiente?
Coefficienti stimati per il problema di regressione lineare. Se vengono assegnati più obiettivi durante l'adattamento (y 2D), questo è un array 2D di forma (n_targets, n_features), mentre se viene passato solo un target, questo è un array 1D di lunghezza n_features.
Sto passando al mio regression.fit (A, B), dove A è un array 2-D, con valore tfidf per ogni funzione in un documento. Formato Esempio:
"feature1" "feature2"
"Doc1" .44 .22
"Doc2" .11 .6
"Doc3" .22 .2
B sono i miei valori di riferimento per i dati, che sono solo numeri 1-100 associati ad ogni documento:
Uso regression.coef_, ho un elenco di coefficienti, ma non le loro caratteristiche corrispondenti! Come posso ottenere le funzionalità? Immagino di dover modificare la struttura dei miei bersagli B, ma non so come.
Questo è vero finché regression.coef_ restituisce i valori di coefficinet nello stesso ordine. Grazie. – jeffrey
L'ExtraTreesClassifier è in realtà molto interessante, ma sembra che non ci sia modo di recuperare le funzionalità effettive che ha scelto dopo che il modello è stato adattato? – jeffrey
@jeffrey Sì, ma seleziono sempre la funzione in base a "clf.feature_importances_" per recuperare la classificazione di importanza delle funzionalità. Beh, intuitivamente è proprio come i coefficienti del modello lineare, non è vero? – Jake0x32