unire due dataframe panda utilizzando una colonna specifica

Sono nuovo con i panda e sto provando ad unire due dataframes basati sull'uguaglianza di una colonna specifica. Per esempio supponiamo che ho i seguenti:unire due dataframe panda utilizzando una colonna specifica

Entrambi dataframes hanno le stesse colonne e il valore di una sola colonna (ad esempio A) potrebbe essere uguale. Quello che voglio come output è questo:

df3 
A B C B C 
2 8 9 2 2

I valori per la colonna 'A' sono unici in entrambi i dataframes.

Grazie

fonte

2015-06-01 ahajib

pd.concat([df1.set_index('A'),df2.set_index('A')], axis=1, join='inner')

Se si desidera mantenere la colonna A come un non-indice, quindi:

pd.concat([df1.set_index('A'),df2.set_index('A')], axis=1, join='inner').reset_index()

fonte

2015-06-01 22:53:59 vk1011

Con questo buon metodo, A diventa l'indice. Questo può essere ciò che l'OP vuole, ma potresti anche offrire l'uso di 'reset_index' per trasformarlo in una colonna, se questo è ciò che desideri. –

Certo, l'indice può essere resettato aggiungendo ".reset_index()" alla fine. 'pd.concat ([df1.set_index ('A'), df2.set_index ('A')], axis = 1, join = 'inner'). Reset_index()' – vk1011

è meglio modificare la risposta a includi l'add'l info –

In alternativa, si può solo fare:

df3 = df1.merge(df2, on='A', how='inner', suffixes=('_1', '_2'))

E poi puoi tenere traccia dell'origine di ciascun valore

fonte

2015-06-01 22:59:20

Cosa fanno i suffissi? – ahajib

aggiunge un suffisso al nome di ciascuna colonna in modo tale che non resti con es. due colonne chiamate '" B "'. Quando si hanno nomi di colonne duplicati, si ottiene un comportamento molto inaspettato con say, 'df3 ['B']. Apply (lambda x: ...)' dato che now df ['B'] 'è un DataFrame e non una serie . –

Fantastico. Questo in realtà aiuta molto – ahajib

unire due dataframe panda utilizzando una colonna specifica

risposta

Problemi correlati