trovare caratteristiche importanti per la classificazione

Sto provando a classificare alcuni dati EEG usando un modello di regressione logistica (questo sembra dare la migliore classificazione dei miei dati). I dati che ho provengono da un setup EEG multicanale quindi in sostanza ho una matrice di 63 x 116 x 50 (cioè canali x punti di tempo x numero di prove (ci sono due tipi di prova di 50), l'ho rimodellato ad un vettore lungo, uno per ogni provatrovare caratteristiche importanti per la classificazione

Quello che vorrei fare è dopo la classificazione per vedere quali caratteristiche sono state più utili nella classificazione delle prove. Come posso farlo ed è possibile testarne l'importanza caratteristiche, ad esempio per dire che la classificazione era principalmente basata su N-features e queste sono caratteristiche da X a Z. Quindi potrei dire che il canale 10 al punto temporale 90-95 è stato significativo o importante per la classificazione

Quindi è possibile o sto facendo la domanda sbagliata?

tutti i commenti o riferimenti cartacei sono molto apprezzati.

fonte

2013-04-03 dYz

scikit-learn include alcuni metodi abbastanza per classifica caratteristica, tra i quali:

univariata funzione di selezione (http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
ricorsivo funzione eliminazione (http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
randomizzato di regressione logistica/selezione della stabilità (http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)

(vedere di più al http://scikit-learn.org/stable/modules/feature_selection.html)

Tra questi, consiglio vivamente di dare uno scatto alla regressione logistica randomizzata. Nella mia esperienza, supera costantemente gli altri metodi ed è molto stabile. Paper su questo: http://arxiv.org/pdf/0809.2932v2.pdf

Edit: Ho scritto una serie di post di blog sui diversi metodi di selezione funzione ed i loro pro e contro, che sono probabilmente utile per rispondere a questa domanda in modo più dettagliato:

fonte

2013-04-03 22:05:38

Anche i modelli non-randomizzati L1-penalizzati sono belli (es. L1 penalizzato Regressione logistica e LinearSVC). Non ho ancora molta esperienza con le versioni randomizzate. –

Secondo suggerimento di AndreasMueller, SVM L1-penalty è un algoritmo di selezione delle caratteristiche sorprendentemente buono per alcune attività (che non assomigliano alla lettura EEG, quindi YMMV). L '[esempio di classificazione dei documenti] (http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html#example-document-classification-20newsgroups-py) fa questo, vedi 'L1LinearSVC' lì. –

Nella mia esperienza, il caso in cui i metodi non randomizzati possono fallire è dove si hanno caratteristiche fortemente multicollinear, nel qual caso alcune caratteristiche possono essere tra quelle principali su un sottoinsieme di dati, mentre vengono regolarizzate per un altro sottoinsieme. –

trovare caratteristiche importanti per la classificazione

risposta

Problemi correlati