Pandas 資料分析——Merge 資料拼接圖文詳解

Harry_03發表於2020-01-15

原文網址 : https://learnku.com/articles/39738?order_by=created_at&

微信公眾號：「Python讀財」

如有問題或建議，請公眾號留言

為了方便維護，一般公司的資料在資料庫內都是分表儲存的，比如用一個表儲存所有使用者的基本資訊，一個表儲存使用者的消費情況。所以，在日常的資料處理中，經常需要將兩張表拼接起來使用，這樣的操作對應到SQL中是join，在Pandas中則是用merge來實現。這篇文章就講一下merge的主要原理。

上面的引入部分說到merge是用來拼接兩張表的，那麼拼接時自然就需要將使用者資訊一一對應地進行拼接，所以進行拼接的兩張表需要有一個共同的識別使用者的鍵（key）。總結來說，整個merge的過程就是將資訊一一對應匹配的過程，下面介紹merge的四種型別，分別為'inner'、'left'、'right'和'outer'。

merge的'inner'的型別稱為內連線，它在拼接的過程中會取兩張表的鍵（key）的交集進行拼接。什麼意思呢？下面以圖解的方式來一步一步拆解。

首先我們有以下的資料，左側和右側的資料分別代表了使用者的基礎資訊和消費資訊，連線兩張表的鍵是userid。

資料.png

現在用'inner'的方式進行merge

In [6]: df_1.merge(df_2,how='inner',on='userid')
Out[6]:
  userid  age  payment
0      a   23     2000
1      c   32     3500

過程圖解：

①取兩張表的鍵的交集，這裡df_1和df_2的userid的交集是{a,c}

②對應匹配

③結果

過程彙總：

相信整個過程並不難理解，上面演示的是同一個鍵下，兩個表對應只有一條資料的情況（一個使用者對應一條消費記錄），那麼，如果一個使用者對應了多條消費記錄的話，那又是怎麼拼接的呢？

假設現在的資料變成了下面這個樣子，在df_2中，有兩條和a對應的資料：

資料2.png

同樣用inner的方式進行merge：

In [12]: df_1.merge(df_2,how='inner',on='userid')
Out[12]:
  userid  age  payment
0      a   23     2000
1      a   23      500
2      b   46     1000
3      c   32     3500

整個過程除了對應匹配階段，其他和上面基本都是一致的。

過程圖解：

①取兩張表的鍵的交集，這裡df_1和df_2的userid的交集是{a,b,c}

②對應匹配時，由於這裡的a有兩條對應的消費記錄，故在拼接時，會將使用者基礎資訊表中a對應的資料複製多一行來和右邊進行匹配。

③結果

'left'和'right'的merge方式其實是類似的，分別被稱為左連線和右連線。這兩種方法是可以互相轉換的，所以在這裡放在一起介紹。

'left'：merge時，以左邊表格的鍵為基準進行配對，如果左邊表格中的鍵在右邊不存在，則用缺失值NaN填充。

'right'：merge時，以右邊表格的鍵為基準進行配對，如果右邊表格中的鍵在左邊不存在，則用缺失值NaN填充。

什麼意思呢？用一個例子來具體解釋一下，這是演示的資料

資料3_left.png

現在用'left'的方式進行merge

In [21]: df_1.merge(df_2,how='left',on='userid')
Out[21]:
  userid  age  payment
0      a   23   2000.0
1      b   46      NaN
2      c   32   3500.0
3      d   19      NaN

過程圖解：

①以左邊表格的所有鍵為基準進行配對。圖中，因為右表中的e不在左表中，故不會進行配對。

②若右表中的payment列合併到左表中，對於沒有匹配值的用缺失值NaN填充

過程彙總：

對於'right'型別的merge和'left'其實是差不多的，只要把兩個表格的位置調換一下，兩種方式返回的結果就是一樣的（），如下：

In [22]: df_2.merge(df_1,how='right',on='userid')
Out[22]:
  userid  payment  age
0      a   2000.0   23
1      c   3500.0   32
2      b      NaN   46
3      d      NaN   19

至於'left'和'right'中（乃至於下面將介紹的'outer'）連線的鍵是一對多的情況，原理和上方的'inner'是類似的，這裡便不再贅述。

'outer'是外連線，在拼接的過程中它會取兩張表的鍵（key）的並集進行拼接。看文字不夠直觀，還是上例子吧！

還是使用上方用過的演示資料

資料3_left.png

這次使用'outer'進行merge

In [24]: df_1.merge(df_2,how='outer',on='userid')
Out[24]:
  userid   age  payment
0      a  23.0   2000.0
1      b  46.0      NaN
2      c  32.0   3500.0
3      d  19.0      NaN
4      e   NaN    600.0

圖解如下：

①取兩張表鍵的並集，這裡是{a,b,c,d,e}

②將兩張表的資料列拼起來，對於沒有匹配到的地方，使用缺失值NaN進行填充

能讀到這裡的小夥伴想必也基本理解了merge的整個過程，總結來說，merge的不同型別區別就在於拼接時，選用的兩個表格的鍵的集合不同。關於Pandas的merge就介紹到這裡！

原創不易，如果覺得有點用，希望可以隨手點個贊，拜謝各位老鐵。

掃碼關注公眾號「Python讀財」，第一時間獲取乾貨，還可以加Python學習交流群！！
公眾號二維碼.jpg

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Pandas 資料分析——超好用的 Groupby 詳解
2020-01-15
Python - pandas 資料分析
2020-04-05
Python
Pandas資料結構詳解 | 輕鬆玩轉Pandas（1）
2019-03-03
資料結構
mysql資料庫的安裝（圖文詳解）
2024-03-17
MySql資料庫
Python資料分析之pandas
2018-07-23
Python
資料分析---pandas模組
2024-05-29
資料分析利器之Pandas
2022-12-05
Python資料分析之Pandas篇
2020-10-05
Python
使用pandas進行資料分析
2024-10-27
圖解資料分析 | 資料分析的數學基礎
2022-02-25
圖解
資料分析-pandas資料處理清洗常用總結
2018-04-12
利用Tushare資料介面+pandas進行股票資料分析
2022-06-05
pandas-profiling資料分析預覽
2020-10-25
python-資料分析-Pandas-3、DataFrame-資料重塑
2024-06-10
Python
資料結構系列：圖文詳解氣泡排序 & 優化
2020-10-14
資料結構排序優化
python-資料分析-Pandas-4、DataFrame-資料透視
2024-06-10
Python
一文詳解後設資料管理與資料血緣
2023-12-26
Python利用pandas處理資料與分析
2024-03-25
Python
用 Python 進行資料分析 pandas (一)
2019-06-04
Python
Python入門教程—資料分析工具Pandas
2021-08-11
Python
在讀取資料時拼接圖片域名
2019-04-08
圖解大資料 | 海量資料庫查詢-Hive與HBase詳解
2022-03-08
圖解大資料資料庫Hive
[譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
2018-11-12
Python大資料分析學習.Pandas 資料匯入問題 (1)
2018-05-19
Python大資料
用Jupyter+pandas資料分析，6種資料格式效率對比
2020-10-29
Pandas 資料處理三板斧——map、apply、applymap 詳解
2020-01-15
APP
python-資料分析-Pandas-1、Series物件
2024-06-09
Python物件
Pandas 資料分析 5 個實用小技巧
2020-12-06
[20210128]拼接資料塊.txt
2021-01-28
Python資料分析 Pandas模組基礎資料結構與簡介
2018-12-14
Python資料結構
基於python的大資料分析實戰學習筆記-pandas（資料分析包）
2019-08-28
Python大資料筆記
Python 資料分析：讓你像寫 Sql 語句一樣，使用 Pandas 做資料分析
2019-06-14
PythonSQL
5大資料經典模型詳解——資料分析師必須掌握
2021-03-16
大資料模型
【python資料探勘課程】二十三.時間序列金融資料預測及Pandas庫詳解
2018-05-09
Python
Python資料分析入門（十四）：資料分析中常用圖
2021-04-10
Python
基於python的大資料分析-pandas資料儲存（程式碼實戰）
2019-08-28
Python大資料
基於python的大資料分析-pandas資料讀取（程式碼實戰）
2019-08-29
Python大資料
Pandas庫基礎分析——資料生成和訪問
2019-02-16

Pandas 資料分析——Merge 資料拼接圖文詳解

相關文章