Sto provando a eseguire un PCA su una matrice di dimensioni m x n dove m è il numero di funzioni e il numero di campioni.Come utilizzare scikit-learn PCA per la riduzione delle funzionalità e sapere quali funzionalità vengono scartate
Supponiamo di voler conservare le funzioni nf
con la varianza massima. Con scikit-learn
sono in grado di farlo in questo modo:
from sklearn.decomposition import PCA
nf = 100
pca = PCA(n_components=nf)
# X is the matrix transposed (n samples on the rows, m features on the columns)
pca.fit(X)
X_new = pca.transform(X)
Ora, ottengo una nuova matrice X_new
che ha una forma di n x nf. È possibile sapere quali caratteristiche sono state scartate o quelle mantenute?
Grazie
Caratteristica non vengono scartati vengono proiettati a dimensione più piccola e supponiamo per rivelare interessanti connessioni tra le diverse caratteristiche. –
Grazie Tom, pensavo che il PCA potesse essere usato per la selezione delle funzionalità, ma (corretto se ho torto) è usato solo per ridimensionare i dati sui componenti principali. Mentre lo leggi, penso che chiuderò la domanda. – gc5
La matrice di output dovrebbe essere di forma '(n, nf)', non '(nf, n)'. – eickenberg