Sto provando a calcolare una matrice di correlazione di diversi valori. Questi valori includono alcuni valori "nan". Sto usando numpy.corrcoef. Per l'elemento (i, j) della matrice di correlazione di output mi piacerebbe avere la correlazione calcolata usando tutti i valori che esistono sia per la variabile i che per la variabile j.numpy corrcoef - calcolo della matrice di correlazione ignorando i dati mancanti
Questo è quello che ho adesso:..
In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]:
array([[ 1. , nan, nan, -0.10998411],
[ nan, nan, nan, nan],
[ nan, nan, nan, nan],
[-0.10998411, nan, nan, 1. ]])
Troppi di :(
Non mi consente di modificare il post, ma la prima riga all'interno del blocco di codice dovrebbe contenere: "... come pd", anziché "... come np". – WindChimes
Risposta epica! Mi hai appena aiutato a gestire i dati mancanti * e * rimosso un ciclo nidificato dal mio codice. Grazie! –