多快好省地使用pandas分析大型資料集

費弗裡發表於2020-10-31

原文網址 : https://www.cnblogs.com/feffery/p/13906821.html

1 簡介

　　pandas雖然是個非常流行的資料分析利器，但很多朋友在使用pandas處理較大規模的資料集的時候經常會反映pandas運算“慢”，且記憶體開銷“大”。

　　特別是很多學生黨在使用自己效能一般的筆記本嘗試處理大型資料集時，往往會被捉襟見肘的算力所勸退。但其實只要掌握一定的pandas使用技巧，配置一般的機器也有能力hold住大型資料集的分析。

圖1

　　本文就將以真實資料集和運存16G的普通膝上型電腦為例，演示如何運用一系列策略實現多快好省地用pandas分析大型資料集。

2 pandas多快好省策略

　　我們使用到的資料集來自kaggle上的TalkingData AdTracking Fraud Detection Challenge競賽（ https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection ），使用到其對應的訓練集，這是一個大小有7.01G的csv檔案。

　　下面我們將循序漸進地探索在記憶體開銷和計算時間成本之間尋求平衡，首先我們不做任何優化，直接使用pandas的read_csv()來讀取train.csv檔案：

import pandas as pd

raw = pd.read_csv('train.csv')

# 檢視資料框記憶體使用情況
raw.memory_usage(deep=True)

圖2

　　可以看到首先我們讀入整個資料集所花費的時間達到了將近三分鐘，且整個過程中因為中間各種臨時變數的建立，一度快要撐爆我們16G的執行記憶體空間。

　　這樣一來我們後續想要開展進一步的分析可是說是不可能的，因為隨便一個小操作就有可能會因為中間過程大量的臨時變數而撐爆記憶體，導致當機藍屏，所以我們第一步要做的是降低資料框所佔的記憶體：

指定資料型別以節省記憶體

　　因為pandas預設情況下讀取資料集時各個欄位確定資料型別時不會替你優化記憶體開銷，比如我們下面利用引數nrows先讀入資料集的前1000行試探著看看每個欄位都是什麼型別：

raw = pd.read_csv('train.csv', nrows=1000)
raw.info()

圖3

　　怪不得我們的資料集讀進來會那麼的大，原來所有的整數列都轉換為了int64來儲存，事實上我們原資料集中各個整數字段的取值範圍根本不需要這麼高的精度來儲存，因此我們利用dtype引數來降低一些欄位的數值精度：

raw = pd.read_csv('train.csv', nrows=1000,
                  dtype={
                      'ip': 'int32',
                      'app': 'int16',
                      'device': 'int16',
                      'os': 'int16',
                      'channel': 'int16',
                      'is_attributed': 'int8'
                  })
raw.info()

圖4

　　可以看到，在修改資料精度之後，前1000行資料集的記憶體大小被壓縮了將近54.6%，這是個很大的進步，按照這個方法我們嘗試著讀入全量資料並檢視其info()資訊：

圖5

　　可以看到隨著我們對資料精度的優化，資料集所佔記憶體有了非常可觀的降低，使得我們開展進一步的資料分析更加順暢，比如分組計數：

(
    raw
    # 按照app和os分組計數
    .groupby(['app', 'os'])
    .agg({'ip': 'count'})
)

圖6

　　那如果資料集的資料型別沒辦法優化，那還有什麼辦法在不撐爆記憶體的情況下完成計算分析任務呢？

只讀取需要的列

　　如果我們的分析過程並不需要用到原資料集中的所有列，那麼就沒必要全讀進來，利用usecols引數來指定需要讀入的欄位名稱：

raw = pd.read_csv('train.csv', usecols=['ip', 'app', 'os'])
raw.info()

圖7

　　可以看到，即使我們沒有對資料精度進行優化，讀進來的資料框大小也只有4.1個G，如果配合上資料精度優化效果會更好：

圖8

　　如果有的情況下我們即使優化了資料精度又篩選了要讀入的列，資料量依然很大的話，我們還可以以分塊讀入的方式來處理資料：

分塊讀取分析資料

　　利用chunksize引數，我們可以為指定的資料集建立分塊讀取IO流，每次最多讀取設定的chunksize行資料，這樣我們就可以把針對整個資料集的任務拆分為一個一個小任務最後再彙總結果：

from tqdm.notebook import tqdm

# 在降低資料精度及篩選指定列的情況下，以1千萬行為塊大小
raw = pd.read_csv('train.csv', 
                  dtype={
                      'ip': 'int32',
                      'app': 'int16',
                      'os': 'int16'
                  },
                  usecols=['ip', 'app', 'os'],
                  chunksize=10000000)

# 從raw中迴圈提取每個塊並進行分組聚合，最後再彙總結果
result = \
(
    pd
    .concat([chunk
             .groupby(['app', 'os'], as_index=False)
             .agg({'ip': 'count'}) for chunk in tqdm(raw)])
    .groupby(['app', 'os'])
    .agg({'ip': 'sum'})
)

result

圖9

　　可以看到，利用分塊讀取處理的策略，從始至終我們都可以保持較低的記憶體負載壓力，並且一樣完成了所需的分析任務，同樣的思想，如果你覺得上面分塊處理的方式有些費事，那下面我們就來上大招：

利用dask替代pandas進行資料分析

　　dask相信很多朋友都有聽說過，它的思想與上述的分塊處理其實很接近，只不過更加簡潔，且對系統資源的排程更加智慧，從單機到叢集，都可以輕鬆擴充套件伸縮。

圖10

　　推薦使用conda install dask來安裝dask相關元件，安裝完成後，我們僅僅需要需要將import pandas as pd替換為import dask.dataframe as dd，其他的pandas主流API使用方式則完全相容，幫助我們無縫地轉換程式碼：

圖11

　　可以看到整個讀取過程只花費了313毫秒，這當然不是真的讀進了記憶體，而是dask的延時載入技術，這樣才有能力處理超過記憶體範圍的資料集。

　　接下來我們只需要像操縱pandas的資料物件一樣正常書寫程式碼，最後加上.compute()，dask便會基於前面搭建好的計算圖進行正式的結果運算：

(
    raw
    # 按照app和os分組計數
    .groupby(['app', 'os'])
    .agg({'ip': 'count'})
    .compute() # 啟用計算圖
)

　　並且dask會非常智慧地排程系統資源，使得我們可以輕鬆跑滿所有CPU：

圖12

　　關於dask的更多知識可以移步官網自行學習（ https://docs.dask.org/en/latest/ ）。

圖13

　　以上就是本文的全部內容，歡迎在評論區與我進行討論~

[譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
2018-11-12
使用pandas進行資料分析
2024-10-27
Python - pandas 資料分析
2020-04-05
Python
Python資料分析之pandas
2018-07-23
Python
資料分析---pandas模組
2024-05-29
資料分析利器之Pandas
2022-12-05
Python資料分析之Pandas篇
2020-10-05
Python
Python 資料分析：讓你像寫 Sql 語句一樣，使用 Pandas 做資料分析
2019-06-14
PythonSQL
pandas-profiling資料分析預覽
2020-10-25
Pandas 資料分析——Merge 資料拼接圖文詳解
2020-01-15
資料分析-pandas資料處理清洗常用總結
2018-04-12
利用Tushare資料介面+pandas進行股票資料分析
2022-06-05
Pandas使用DataFrame進行資料分析比賽進階之路（一）
2019-02-16
Python利用pandas處理資料與分析
2024-03-25
Python
用 Python 進行資料分析 pandas (一)
2019-06-04
Python
Python入門教程—資料分析工具Pandas
2021-08-11
Python
python-資料分析-Pandas-3、DataFrame-資料重塑
2024-06-10
Python
【Pandas學習筆記01】強大的分析結構化資料的工具集
2021-11-25
筆記
地圖資料採集，包括百度地圖採集，高德地圖採集，360地圖採集
2024-04-28
地圖
資料分析實際案例之：pandas在餐廳評分資料中的使用
2022-02-25
Pandas 資料分析——超好用的 Groupby 詳解
2020-01-15
python-資料分析-Pandas-1、Series物件
2024-06-09
Python物件
Pandas 資料分析 5 個實用小技巧
2020-12-06
python-資料分析-Pandas-4、DataFrame-資料透視
2024-06-10
Python
資料分析實際案例之：pandas在泰坦尼特號乘客資料中的使用
2022-02-24
在大型金融資料集上使用機器學習的特徵工程測試
2018-09-23
機器學習特徵工程
Pandas庫基礎分析——資料生成和訪問
2019-02-16
Python大資料分析學習.Pandas 資料匯入問題 (1)
2018-05-19
Python大資料
用Jupyter+pandas資料分析，6種資料格式效率對比
2020-10-29
pandas基本使用（一）-- 利用python進行資料分析筆記（第五章）
2020-10-02
Python筆記
seaborn和pandas-missingno 的資料視覺化--使用畫圖--缺失值分析
2019-01-01
視覺化
基於python的大資料分析實戰學習筆記-pandas（資料分析包）
2019-08-28
Python大資料筆記
使用Pandas IO工具流式傳輸源資料
2024-04-13
Python資料分析 Pandas模組基礎資料結構與簡介
2018-12-14
Python資料結構
SQL與Pandas大資料分析效能對比（Haki Benita）
2021-04-30
SQL大資料
在大型專案中，抖音集團如何“用活”資料？
2024-02-02
基於python的大資料分析-pandas資料儲存（程式碼實戰）
2019-08-28
Python大資料
基於python的大資料分析-pandas資料讀取（程式碼實戰）
2019-08-29
Python大資料

多快好省地使用pandas分析大型資料集

1 簡介

2 pandas多快好省策略

相關文章