2012-10-04 11 views
14

Sto usando sklearn.pipeline.Pipeline per estrarre feature feature e un classificatore. C'è un modo per combinare più classi di selezione delle funzionalità (ad esempio quelle da sklearn.feature_selection.text) in parallelo e unire le loro uscite?Combinare le classi di estrazione delle caratteristiche in scikit-learn

Il mio codice in questo momento appare come segue:

pipeline = Pipeline([ 
    ('vect', CountVectorizer()), 
    ('tfidf', TfidfTransformer()), 
    ('clf', SGDClassifier())]) 

Essa si traduce nella seguente:

vect -> tfidf -> clf 

Voglio essere in grado di specificare una pipeline che appare come segue:

vect1 -> tfidf1 \ 
       -> clf 
vect2 -> tfidf2/

risposta

16

Questo è stato implementato di recente nel ramo master di scikit-learn con il nome FeatureUnion:

http://scikit-learn.org/dev/modules/pipeline.html#feature-union

+2

Yup, ho visto in http://blog.kaggle.com/2012/09/26/impermium-andreas-blog/ dopo ho fatto la domanda –

+0

fresco, un primo utente:) Fammi sapere se lo trovi utile! –

+1

'sklearn.pipeline.FeatureUnion' è nella versione 0.13.1 – smci