2012-03-20 5 views
20

Desidero eseguire un'operazione di unione/unione/aggiunta su un dataframe con indice datetime.join o unione con sovrascrittura in panda

Diciamo che ho df1 e voglio aggiungere df2 ad esso. df2 può avere un numero inferiore o inferiore di colonne e indici sovrapposti. Per tutte le righe in cui gli indici corrispondono, se df2 ha la stessa colonna di df1, desidero che i valori di df1 vengano sovrascritti con quelli da df2.

Come posso ottenere il risultato desiderato?

risposta

22

Che ne dite: df2.combine_first(df1)?

In [33]: df2 
Out[33]: 
        A   B   C   D 
2000-01-03 0.638998 1.277361 0.193649 0.345063 
2000-01-04 -0.816756 -1.711666 -1.155077 -0.678726 
2000-01-05 0.435507 -0.025162 -1.112890 0.324111 
2000-01-06 -0.210756 -1.027164 0.036664 0.884715 
2000-01-07 -0.821631 -0.700394 -0.706505 1.193341 
2000-01-10 1.015447 -0.909930 0.027548 0.258471 
2000-01-11 -0.497239 -0.979071 -0.461560 0.447598 

In [34]: df1 
Out[34]: 
        A   B   C 
2000-01-03 2.288863 0.188175 -0.040928 
2000-01-04 0.159107 -0.666861 -0.551628 
2000-01-05 -0.356838 -0.231036 -1.211446 
2000-01-06 -0.866475 1.113018 -0.001483 
2000-01-07 0.303269 0.021034 0.471715 
2000-01-10 1.149815 0.686696 -1.230991 
2000-01-11 -1.296118 -0.172950 -0.603887 
2000-01-12 -1.034574 -0.523238 0.626968 
2000-01-13 -0.193280 1.857499 -0.046383 
2000-01-14 -1.043492 -0.820525 0.868685 

In [35]: df2.comb 
df2.combine  df2.combineAdd  df2.combine_first df2.combineMult  

In [35]: df2.combine_first(df1) 
Out[35]: 
        A   B   C   D 
2000-01-03 0.638998 1.277361 0.193649 0.345063 
2000-01-04 -0.816756 -1.711666 -1.155077 -0.678726 
2000-01-05 0.435507 -0.025162 -1.112890 0.324111 
2000-01-06 -0.210756 -1.027164 0.036664 0.884715 
2000-01-07 -0.821631 -0.700394 -0.706505 1.193341 
2000-01-10 1.015447 -0.909930 0.027548 0.258471 
2000-01-11 -0.497239 -0.979071 -0.461560 0.447598 
2000-01-12 -1.034574 -0.523238 0.626968  NaN 
2000-01-13 -0.193280 1.857499 -0.046383  NaN 
2000-01-14 -1.043492 -0.820525 0.868685  NaN 

noti che assume i valori da df1 per gli indici che non si sovrappongono con df2. Se questo non fa esattamente quello che vuoi, sarei disposto a migliorare questa funzione/aggiungere opzioni ad esso.

+0

Penso che questo è davvero ciò che voglio, grazie mille. – saroele

+0

C'è un problema con 'combine_first': usarlo per combinare tre dataframes di circa 30k righe ogni volta supera tutta la mia memoria. In qualche modo intorno a questo? – scry

+0

Penso che sarebbe molto più intuitivo se questa funzionalità fosse parte della funzione 'df.update' con argomento opzionale' join = 'outer'' (attualmente è implementato solo 'left'). Nel mio caso, 'df2' (calcolato da' df1') ha colonne molto meno di 'df1' (ma alcuni che non sono in' df1'), e voglio aggiornare 'df1' con i valori calcolati dove possibile più le colonne extra. Per questo, penso che 'df1.update (df2, join = 'outer')' sarebbe molto più facile da capire di 'df1 = df2.combine_first (df1)'. PS. Questo è un cavillo minore, ma altrimenti "panda" è quasi esclusivamente fantastico! =) – Axel

6

Per un'unione come questa, il metodo update di DataFrame è utile.

Prendendo esempi dalla documentation:

import pandas as pd 
import numpy as np 

df1 = pd.DataFrame([[np.nan, 3., 5.], [-4.6, np.nan, np.nan], 
        [np.nan, 7., np.nan]]) 
df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5., 1.6, 4]], 
        index=[1, 2]) 

dati prima della update: aggiornamento

>>> df1 
    0 1 2 
0 NaN 3.0 5.0 
1 -4.6 NaN NaN 
2 NaN 7.0 NaN 
>>> 
>>> df2 
     0 1 2 
1 -42.6 NaN -8.2 
2 -5.0 1.6 4.0 

Let df1 con i dati da df2:

df1.update(df2) 

dati dopo l'aggiornamento:

>>> df1 
     0 1 2 
0 NaN 3.0 5.0 
1 -42.6 NaN -8.2 
2 -5.0 1.6 4.0 

Osservazione:

  • E 'importante notare che si tratta di un'operazione "a posto", modificando il dataframe che chiama update.
+3

Questo è più intuitivo di 'combine_first' perché agisce esattamente come il metodo' update' che conosciamo dai dicts. – saroele