Pandas高階教程之:Dataframe的合併

flydean發表於2021-06-14

原文網址 : https://www.cnblogs.com/flydean/p/14883259.html

簡介

Pandas提供了很多合併Series和Dataframe的強大的功能，通過這些功能可以方便的進行資料分析。本文將會詳細講解如何使用Pandas來合併Series和Dataframe。

使用concat

concat是最常用的合併DF的方法，先看下concat的定義：

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None,
          levels=None, names=None, verify_integrity=False, copy=True)

看一下我們經常會用到的幾個引數：

objs是Series或者Series的序列或者對映。

axis指定連線的軸。

join : {‘inner’, ‘outer’}, 連線方式，怎麼處理其他軸的index，outer表示合併，inner表示交集。

ignore_index：忽略原本的index值，使用0,1,… n-1來代替。

copy：是否進行拷貝。

keys：指定最外層的多層次結構的index。

我們先定義幾個DF，然後看一下怎麼使用concat把這幾個DF連線起來：

In [1]: df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ...:                     'B': ['B0', 'B1', 'B2', 'B3'],
   ...:                     'C': ['C0', 'C1', 'C2', 'C3'],
   ...:                     'D': ['D0', 'D1', 'D2', 'D3']},
   ...:                    index=[0, 1, 2, 3])
   ...: 

In [2]: df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
   ...:                     'B': ['B4', 'B5', 'B6', 'B7'],
   ...:                     'C': ['C4', 'C5', 'C6', 'C7'],
   ...:                     'D': ['D4', 'D5', 'D6', 'D7']},
   ...:                    index=[4, 5, 6, 7])
   ...: 

In [3]: df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
   ...:                     'B': ['B8', 'B9', 'B10', 'B11'],
   ...:                     'C': ['C8', 'C9', 'C10', 'C11'],
   ...:                     'D': ['D8', 'D9', 'D10', 'D11']},
   ...:                    index=[8, 9, 10, 11])
   ...: 

In [4]: frames = [df1, df2, df3]

In [5]: result = pd.concat(frames)

df1,df2,df3定義了同樣的列名和不同的index，然後將他們放在frames中構成了一個DF的list，將其作為引數傳入concat就可以進行DF的合併。

舉個多層級的例子：

In [6]: result = pd.concat(frames, keys=['x', 'y', 'z'])

使用keys可以指定frames中不同frames的key。

使用的時候，我們可以通過選擇外部的key來返回特定的frame：

In [7]: result.loc['y']
Out[7]: 
    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

上面的例子連線的軸預設是0，也就是按行來進行連線，下面我們來看一個例子按列來進行連線，如果要按列來連線，可以指定axis=1：

In [8]: df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
   ...:                     'D': ['D2', 'D3', 'D6', 'D7'],
   ...:                     'F': ['F2', 'F3', 'F6', 'F7']},
   ...:                    index=[2, 3, 6, 7])
   ...: 

In [9]: result = pd.concat([df1, df4], axis=1, sort=False)

預設的 join='outer'，合併之後index不存在的地方會補全為NaN。

下面看一個join='inner'的情況：

In [10]: result = pd.concat([df1, df4], axis=1, join='inner')

join='inner' 只會選擇index相同的進行展示。

如果合併之後，我們只想儲存原來frame的index相關的資料，那麼可以使用reindex：

In [11]: result = pd.concat([df1, df4], axis=1).reindex(df1.index)

或者這樣：

In [12]: pd.concat([df1, df4.reindex(df1.index)], axis=1)
Out[12]: 
    A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3

看下結果：

可以合併DF和Series：

In [18]: s1 = pd.Series(['X0', 'X1', 'X2', 'X3'], name='X')

In [19]: result = pd.concat([df1, s1], axis=1)

如果是多個Series，使用concat可以指定列名：

In [23]: s3 = pd.Series([0, 1, 2, 3], name='foo')

In [24]: s4 = pd.Series([0, 1, 2, 3])

In [25]: s5 = pd.Series([0, 1, 4, 5])

In [27]: pd.concat([s3, s4, s5], axis=1, keys=['red', 'blue', 'yellow'])
Out[27]: 
   red  blue  yellow
0    0     0       0
1    1     1       1
2    2     2       4
3    3     3       5

使用append

append可以看做是concat的簡化版本，它沿著axis=0 進行concat：

In [13]: result = df1.append(df2)

如果append的兩個 DF的列是不一樣的會自動補全NaN：

In [14]: result = df1.append(df4, sort=False)

如果設定ignore_index=True，可以忽略原來的index，並重寫分配index：

In [17]: result = df1.append(df4, ignore_index=True, sort=False)

向DF append一個Series：

In [35]: s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])

In [36]: result = df1.append(s2, ignore_index=True)

使用merge

和DF最類似的就是資料庫的表格，可以使用merge來進行類似資料庫操作的DF合併操作。

先看下merge的定義：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

Left, right是要合併的兩個DF 或者 Series。

on代表的是join的列或者index名。

left_on:左連線

right_on：右連線

left_index: 連線之後，選擇使用左邊的index或者column。

right_index:連線之後，選擇使用右邊的index或者column。

how：連線的方式，'left', 'right', 'outer', 'inner'. 預設 inner.

sort: 是否排序。

suffixes: 處理重複的列。

copy: 是否拷貝資料

先看一個簡單merge的例子：

In [39]: left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
   ....:                      'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3']})
   ....: 

In [40]: right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
   ....:                       'C': ['C0', 'C1', 'C2', 'C3'],
   ....:                       'D': ['D0', 'D1', 'D2', 'D3']})
   ....: 

In [41]: result = pd.merge(left, right, on='key')

上面兩個DF通過key來進行連線。

再看一個多個key連線的例子：

In [42]: left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
   ....:                      'key2': ['K0', 'K1', 'K0', 'K1'],
   ....:                      'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3']})
   ....: 

In [43]: right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
   ....:                       'key2': ['K0', 'K0', 'K0', 'K0'],
   ....:                       'C': ['C0', 'C1', 'C2', 'C3'],
   ....:                       'D': ['D0', 'D1', 'D2', 'D3']})
   ....: 

In [44]: result = pd.merge(left, right, on=['key1', 'key2'])

How 可以指定merge方式，和資料庫一樣，可以指定是內連線，外連線等：

合併方法	SQL 方法
`left`	`LEFT OUTER JOIN`
`right`	`RIGHT OUTER JOIN`
`outer`	`FULL OUTER JOIN`
`inner`	`INNER JOIN`

In [45]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])

指定indicator=True ，可以表示具體行的連線方式：

In [60]: df1 = pd.DataFrame({'col1': [0, 1], 'col_left': ['a', 'b']})

In [61]: df2 = pd.DataFrame({'col1': [1, 2, 2], 'col_right': [2, 2, 2]})

In [62]: pd.merge(df1, df2, on='col1', how='outer', indicator=True)
Out[62]: 
   col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

如果傳入字串給indicator，會重新命名indicator這一列的名字：

In [63]: pd.merge(df1, df2, on='col1', how='outer', indicator='indicator_column')
Out[63]: 
   col1 col_left  col_right indicator_column
0     0        a        NaN        left_only
1     1        b        2.0             both
2     2      NaN        2.0       right_only
3     2      NaN        2.0       right_only

多個index進行合併：

In [112]: leftindex = pd.MultiIndex.from_tuples([('K0', 'X0'), ('K0', 'X1'),
   .....:                                        ('K1', 'X2')],
   .....:                                       names=['key', 'X'])
   .....: 

In [113]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
   .....:                      'B': ['B0', 'B1', 'B2']},
   .....:                     index=leftindex)
   .....: 

In [114]: rightindex = pd.MultiIndex.from_tuples([('K0', 'Y0'), ('K1', 'Y1'),
   .....:                                         ('K2', 'Y2'), ('K2', 'Y3')],
   .....:                                        names=['key', 'Y'])
   .....: 

In [115]: right = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
   .....:                       'D': ['D0', 'D1', 'D2', 'D3']},
   .....:                      index=rightindex)
   .....: 

In [116]: result = pd.merge(left.reset_index(), right.reset_index(),
   .....:                   on=['key'], how='inner').set_index(['key', 'X', 'Y'])

支援多個列的合併：

In [117]: left_index = pd.Index(['K0', 'K0', 'K1', 'K2'], name='key1')

In [118]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   .....:                      'B': ['B0', 'B1', 'B2', 'B3'],
   .....:                      'key2': ['K0', 'K1', 'K0', 'K1']},
   .....:                     index=left_index)
   .....: 

In [119]: right_index = pd.Index(['K0', 'K1', 'K2', 'K2'], name='key1')

In [120]: right = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
   .....:                       'D': ['D0', 'D1', 'D2', 'D3'],
   .....:                       'key2': ['K0', 'K0', 'K0', 'K1']},
   .....:                      index=right_index)
   .....: 

In [121]: result = left.merge(right, on=['key1', 'key2'])

使用join

join將兩個不同index的DF合併成一個。可以看做是merge的簡寫。

In [84]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
   ....:                      'B': ['B0', 'B1', 'B2']},
   ....:                     index=['K0', 'K1', 'K2'])
   ....: 

In [85]: right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
   ....:                       'D': ['D0', 'D2', 'D3']},
   ....:                      index=['K0', 'K2', 'K3'])
   ....: 

In [86]: result = left.join(right)

可以指定how來指定連線方式：

In [87]: result = left.join(right, how='outer')

預設join是按index來進行連線。

還可以按照列來進行連線：

In [91]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3'],
   ....:                      'key': ['K0', 'K1', 'K0', 'K1']})
   ....: 

In [92]: right = pd.DataFrame({'C': ['C0', 'C1'],
   ....:                       'D': ['D0', 'D1']},
   ....:                      index=['K0', 'K1'])
   ....: 

In [93]: result = left.join(right, on='key')

單個index和多個index進行join：

In [100]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
   .....:                      'B': ['B0', 'B1', 'B2']},
   .....:                      index=pd.Index(['K0', 'K1', 'K2'], name='key'))
   .....: 

In [101]: index = pd.MultiIndex.from_tuples([('K0', 'Y0'), ('K1', 'Y1'),
   .....:                                   ('K2', 'Y2'), ('K2', 'Y3')],
   .....:                                    names=['key', 'Y'])
   .....: 

In [102]: right = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
   .....:                       'D': ['D0', 'D1', 'D2', 'D3']},
   .....:                       index=index)
   .....: 

In [103]: result = left.join(right, how='inner')

列名重複的情況：

In [122]: left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})

In [123]: right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})

In [124]: result = pd.merge(left, right, on='k')

可以自定義重複列名的命名規則：

In [125]: result = pd.merge(left, right, on='k', suffixes=('_l', '_r'))

覆蓋資料

有時候我們需要使用DF2的資料來填充DF1的資料，這時候可以使用combine_first：

In [131]: df1 = pd.DataFrame([[np.nan, 3., 5.], [-4.6, np.nan, np.nan],
   .....:                    [np.nan, 7., np.nan]])
   .....: 

In [132]: df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5., 1.6, 4]],
   .....:                    index=[1, 2])
   .....:

In [133]: result = df1.combine_first(df2)

或者使用update：

In [134]: df1.update(df2)

本文已收錄於 http://www.flydean.com/04-python-pandas-merge/

最通俗的解讀，最深刻的乾貨，最簡潔的教程，眾多你不知道的小技巧等你來發現！

歡迎關注我的公眾號:「程式那些事」,懂技術，更懂你！

Pandas高階教程之:Dataframe的重排和旋轉
2021-06-15
pandas -- DataFrame的級聯以及合併操作
2023-10-02
Pandas高階教程之:window操作
2021-07-19
Pandas高階教程之:GroupBy用法
2021-07-12
python中pandas.Dataframe合併的方法有哪些？
2021-09-11
Python
Pandas高階教程之:統計方法
2021-07-08
Pandas高階教程之:自定義選項
2021-07-22
Pandas高階教程之:時間處理
2021-10-11
Pandas高階教程之:稀疏資料結構
2021-07-20
資料結構
Pandas高階教程之:plot畫圖詳解
2021-07-07
Pandas高階教程之:處理缺失資料
2021-06-24
Pandas高階教程之:category資料型別
2021-06-28
Go資料型別
Pandas高階教程之:處理text資料
2021-06-23
Pandas 基礎 (8) - 用 concat 組合 dataframe
2019-03-24
Pandas - DataFrame.loc
2024-03-06
Pandas DataFrame常用方法
2020-12-20
pandas 兩列資料合併
2020-11-18
python pandas Join SQL⻛格合併
2020-12-27
PythonSQL
postgresql高階應用之合併單元格
2021-05-07
SQL
【pandas學習筆記】DataFrame
2018-07-12
筆記
Pandas使用DataFrame進行資料分析比賽進階之路（一）
2019-02-16
pandas | DataFrame中的排序與彙總方法
2020-08-19
排序
Pandas 基礎 (2) - Dataframe 基礎
2019-03-07
使用Pandas DataFrame輸出報告
2020-10-06
python pandas DataFrame-A 更新 DataFrame-B中指定列相同的資料
2024-05-26
Python
pd.merge函式合併DataFrame 保留原index
2024-05-03
函式Index
Pandas 基礎 (3) - 生成 Dataframe 的幾種方式
2019-03-07
pandas | 詳解DataFrame中的apply與applymap方法
2020-08-10
APP
pandas 實現兩個dataframe相減的方式
2020-12-29
pandas中如何使用合併append函式？
2021-09-11
APP函式
git 入門教程之衝突合併
2019-03-20
Git
git 入門教程之變基合併
2019-03-23
Git
pandas.DataFrame.groupby函式應用
2018-05-14
函式
pandas中dataframe與dict相互轉換
2024-10-09
Go 高階併發
2020-02-26
Go
hyperf 教程之 hyperf-auth 高階用法
2020-05-28
pandas dataframe 時間欄位 diff 函式
2020-10-28
函式
檢視spark程式/區分pyspark和pandas的表的合併,pyspark是join,pandas是merge
2018-10-08
Spark