Riempimento dict con valori NA per consentire la conversione in dataframe panda

Ho un comando che contiene valori calcolati su diversi ritardi, il che significa che iniziano in date diverse. Per esempio, i dati da me può sembrare simile al seguente:Riempimento dict con valori NA per consentire la conversione in dataframe panda

Date  col1 col2 col3 col4 col5 
01-01-15 5  12  1  -15  10 
01-02-15 7  0  9  11  7 
01-03-15   6  1  2  18 
01-04-15   9  8  10 
01-05-15   -4    7 
01-06-15   -11    -1 
01-07-15   6

Dove ogni intestazione è la chiave, e ogni colonna di valori è il valore per ogni chiave (sto usando un defaultdict(list) per questo). Quando provo a eseguire pd.DataFrame.from_dict(d), ottengo comprensibilmente un errore che indica che tutti gli array devono avere la stessa lunghezza. C'è un modo facile/banale per riempire o riempire i numeri in modo che l'output diventi il seguente dataframe?

Date  col1 col2 col3 col4 col5 
01-01-15 5  12  1  -15  10 
01-02-15 7  0  9  11  7 
01-03-15 NaN  6  1  2  18 
01-04-15 NaN  9  8  10  NaN 
01-05-15 NaN -4  NaN  7  NaN 
01-06-15 NaN -11  NaN -1  NaN 
01-07-15 NaN  6  NaN  NaN  NaN

O dovrò farlo manualmente con ciascuna lista?

ecco il codice per ricreare il dizionario:

import pandas as pd 
from collections import defaultdict 

d = defaultdict(list) 
d["Date"].extend([ 
    "01-01-15", 
    "01-02-15", 
    "01-03-15", 
    "01-04-15", 
    "01-05-15", 
    "01-06-15", 
    "01-07-15" 
] 
d["col1"].extend([5, 7]) 
d["col2"].extend([12, 0, 6, 9, -4, -11, 6]) 
d["col3"].extend([1, 9, 1, 8]) 
d["col4"].extend([-15, 11, 2, 10, 7, -1]) 
d["col5"].extend([10, 7, 18])

fonte

2016-07-18 weskpga

Potresti aggiungere del codice che potrebbe ricreare l'esempio di esempio? Inoltre, per N/A, intendi NaNs? – Divakar

Puoi ottenere facilmente una risposta da uno di noi se fai un po 'di lavoro alle gambe e condividi il codice a cui si riferisce @Divakar. – piRSquared

Appena aggiunto. E sì, intendevo NaN. Scusa, ho passato troppo tempo in Excel. – weskpga

Un'altra opzione è quella di utilizzare from_dict con orient='index' e poi prendere la trasporre:

my_dict = {'a' : [1, 2, 3, 4, 5], 'b': [1, 2, 3]} 
df = pd.DataFrame.from_dict(my_dict, orient='index').T

Nota che potresti riscontrare problemi con dtype se le tue colonne hanno tipi diversi, ad es. galleggia in una colonna, stringhe in un'altra.

uscita risultante:

 a b 
0 1.0 1.0 
1 2.0 2.0 
2 3.0 3.0 
3 4.0 NaN 
4 5.0 NaN

fonte

2016-07-18 21:58:24 root

Alcune grandi risposte qui, ma penso che questo sia il migliore. – weskpga

Come seguito, c'è un modo semplice per anteporre il 'NaN's invece di aggiungerli alla fine? – weskpga

#dictionary of different lengths... 
my_dict = {'a' : [1, 2, 3, 4, 5], 'b': [1, 2, 3]} 
pd.DataFrame(dict([(col_name,pd.Series(values)) for col_name,values in my_dict.items() ]))

uscita -

a b 
0 1 1.0 
1 2 2.0 
2 3 3.0 
3 4 NaN 
4 5 NaN

fonte

2016-07-18 21:50:15 hashcode55

Ecco un approccio con mascheramento -

K = d.keys() 
V = d.values() 

mask = ~np.in1d(K,'Date') 
K1 = [K[i] for i,item in enumerate(V) if mask[i]] 
V1 = [V[i] for i,item in enumerate(V) if mask[i]] 

lens = np.array([len(item) for item in V1]) 
mask = lens[:,None] > np.arange(lens.max()) 

out_arr = np.full(mask.shape,np.nan) 
out_arr[mask] = np.concatenate(V1) 
df = pd.DataFrame(out_arr.T,columns=K1,index=d['Date'])

Campione run -

In [612]: d.keys() 
Out[612]: ['col4', 'col5', 'col2', 'col3', 'col1', 'Date'] 

In [613]: d.values() 
Out[613]: 
[[-15, 11, 2, 10, 7, -1], 
[10, 7, 18], 
[12, 0, 6, 9, -4, -11, 6], 
[1, 9, 1, 8], 
[5, 7], 
['01-01-15', 
    '01-02-15', 
    '01-03-15', 
    '01-04-15', 
    '01-05-15', 
    '01-06-15', 
    '01-07-15']] 

In [614]: df 
Out[614]: 
      col4 col5 col2 col3 col1 
01-01-15 -15 10 12  1  5 
01-02-15 11  7  0  9  7 
01-03-15  2 18  6  1 NaN 
01-04-15 10 NaN  9  8 NaN 
01-05-15  7 NaN -4 NaN NaN 
01-06-15 -1 NaN -11 NaN NaN 
01-07-15 NaN NaN  6 NaN NaN

fonte

2016-07-18 22:01:39 Divakar

Solo una soluzione rapida per un errore di battitura .... dovrebbe essere len (elemento) anziché len (articolo [0]) – hashcode55

@ hashcode55 Sì, con quel campione pubblicato inizialmente, l'elenco aveva valori incorporati di un livello più profondo. Devo aggiornare ora per il nuovo campione pubblicato, grazie! – Divakar

Con itertools (Python 3):

import itertools 
pd.DataFrame(list(itertools.zip_longest(*d.values())), columns=d.keys()).sort_index(axis=1) 
Out[728]: 
    col1 col2 col3 col4 col5 
0 5.0 12 1.0 -15.0 10.0 
1 7.0  0 9.0 11.0 7.0 
2 NaN  6 1.0 2.0 18.0 
3 NaN  9 8.0 10.0 NaN 
4 NaN -4 NaN 7.0 NaN 
5 NaN -11 NaN -1.0 NaN 
6 NaN  6 NaN NaN NaN

fonte

2016-07-18 22:03:44 ayhan

Riempimento dict con valori NA per consentire la conversione in dataframe panda

risposta

Problemi correlati