ho utilizzato pipeline e grid_search per selezionare i parametri migliori e quindi ho utilizzato questi parametri per adattarli alla pipeline migliore ("best_pipe"). Tuttavia, dal momento che la feature_selection (SelectKBest) si trova nella pipeline non è stato applicato alcun criterio a SelectKBest.selezione della funzione python nella pipeline: come determinare i nomi delle funzionalità?
Ho bisogno di conoscere i nomi delle funzionalità delle funzioni selezionate "k". Qualche idea su come recuperarli? Grazie in anticipo
from sklearn import (cross_validation, feature_selection, pipeline,
preprocessing, linear_model, grid_search)
folds = 5
split = cross_validation.StratifiedKFold(target, n_folds=folds, shuffle = False, random_state = 0)
scores = []
for k, (train, test) in enumerate(split):
X_train, X_test, y_train, y_test = X.ix[train], X.ix[test], y.ix[train], y.ix[test]
top_feat = feature_selection.SelectKBest()
pipe = pipeline.Pipeline([('scaler', preprocessing.StandardScaler()),
('feat', top_feat),
('clf', linear_model.LogisticRegression())])
K = [40, 60, 80, 100]
C = [1.0, 0.1, 0.01, 0.001, 0.0001, 0.00001]
penalty = ['l1', 'l2']
param_grid = [{'feat__k': K,
'clf__C': C,
'clf__penalty': penalty}]
scoring = 'precision'
gs = grid_search.GridSearchCV(estimator=pipe, param_grid = param_grid, scoring = scoring)
gs.fit(X_train, y_train)
best_score = gs.best_score_
scores.append(best_score)
print "Fold: {} {} {:.4f}".format(k+1, scoring, best_score)
print gs.best_params_
best_pipe = pipeline.Pipeline([('scale', preprocessing.StandardScaler()),
('feat', feature_selection.SelectKBest(k=80)),
('clf', linear_model.LogisticRegression(C=.0001, penalty='l2'))])
best_pipe.fit(X_train, y_train)
best_pipe.predict(X_test)
Un vero regalo per ricevere la soluzione da te Jake, in realtà mi hai aiutato a imparare Python con i tuoi video tutorial di Pyramid. Tuttavia, ottengo l'errore "Impossibile convertire la stringa in float: punteggio_575-600" (punteggio_575-600 è il nome di una delle colonne) come può essere risolto? – figgy
Ah - Ho dimenticato che il selettore di funzioni non funziona sulle stringhe. Prova la versione aggiornata qui sopra. Sono contento di sentire i video sono stati utili! – jakevdp
non sono ancora sicuro su come evitare l'errore sopra, ma questa soluzione a doppio passo mi ha almeno ottenuto i nomi delle colonne per le migliori caratteristiche k: features = best_pipe.named_steps ['feat']. Get_support() x_cols = X.colonne .values [features == True] x_cols – figgy