Sto provando a classificare alcuni dati EEG usando un modello di regressione logistica (questo sembra dare la migliore classificazione dei miei dati). I dati che ho provengono da un setup EEG multicanale quindi in sostanza ho una matrice di 63 x 116 x 50 (cioè canali x punti di tempo x numero di prove (ci sono due tipi di prova di 50), l'ho rimodellato ad un vettore lungo, uno per ogni provatrovare caratteristiche importanti per la classificazione
Quello che vorrei fare è dopo la classificazione per vedere quali caratteristiche sono state più utili nella classificazione delle prove. Come posso farlo ed è possibile testarne l'importanza caratteristiche, ad esempio per dire che la classificazione era principalmente basata su N-features e queste sono caratteristiche da X a Z. Quindi potrei dire che il canale 10 al punto temporale 90-95 è stato significativo o importante per la classificazione
Quindi è possibile o sto facendo la domanda sbagliata?
tutti i commenti o riferimenti cartacei sono molto apprezzati.
Anche i modelli non-randomizzati L1-penalizzati sono belli (es. L1 penalizzato Regressione logistica e LinearSVC). Non ho ancora molta esperienza con le versioni randomizzate. –
Secondo suggerimento di AndreasMueller, SVM L1-penalty è un algoritmo di selezione delle caratteristiche sorprendentemente buono per alcune attività (che non assomigliano alla lettura EEG, quindi YMMV). L '[esempio di classificazione dei documenti] (http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html#example-document-classification-20newsgroups-py) fa questo, vedi 'L1LinearSVC' lì. –
Nella mia esperienza, il caso in cui i metodi non randomizzati possono fallire è dove si hanno caratteristiche fortemente multicollinear, nel qual caso alcune caratteristiche possono essere tra quelle principali su un sottoinsieme di dati, mentre vengono regolarizzate per un altro sottoinsieme. –