一行程式碼，Pandas秒變分散式，快速處理TB級資料

量子位發表於2018-03-07

原文網址 : https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/79471302

行程分散式

夏乙發自凹非寺
量子位出品 | 公眾號 QbitAI

剛剛在Pandas上為十幾KB的資料做好了測試寫好了處理指令碼，上百TB的同類大型資料集擺到了面前。這時候，你可能面臨著一個兩難的選擇：

繼續用Pandas？可能會相當慢，上百TB資料不是它的菜。

(ಥ_ಥ) 然而，Spark啊分散式啊什麼的，學習曲線好陡峭哦~在Pandas裡寫的處理指令碼都作廢了好桑心哦~

640?wx_fmt=png&wxfrom=5&wx_lazy=1

別灰心，你可能真的不需要Spark了。

加州大學伯克利分校RiseLab最近在研究的Pandas on Ray，就是為了讓Pandas執行得更快，能搞定TB級資料而生的。這個DataFrame庫想要滿足現有Pandas使用者不換API，就提升效能、速度、可擴充套件性的需求。

研究團隊說，只需要替換一行程式碼，8核機器上的Pandas查詢速度就可以提高4倍。

其實也就是用一個API替換了Pandas中的部分函式，這個API基於Ray執行。Ray是伯克利年初推出的分散式AI框架，能用幾行程式碼，將家用電腦上的原型演算法轉換成適合大規模部署的分散式計算應用。

Pandas on Ray的效能雖說比不上另一個分散式DataFrame庫Dask，但更容易上手，用起來和Pandas幾乎沒有差別。使用者不需要懂分散式計算，也不用學一個新的API。

與Dask不同的是，Ray使用了Apache Arrow裡的共享記憶體物件儲存，不需要對資料進行序列化和複製，就能跨程式通訊。

640?wx_fmt=png

△ 在8核32G記憶體的AWS m5.2xlarge例項上，Ray、Dask和Pandas讀取csv的效能對比

它將Pandas包裹起來並透明地把資料和計算分佈出去。使用者不需要知道他們的系統或者叢集有多少核，也不用指定如何分配資料，可以繼續用之前的Pandas notebook。

前面說過，使用Pandas on Ray需要替換一行程式碼，其實就是換掉匯入語句。

# import pandas as pd
import ray.dataframe as pd

這時候你應該看到：

640?wx_fmt=png

初始化完成，Ray自動識別了你機器上可用的核心，接下來的用法，就和Pandas一樣了。

Pandas on Ray目前還處於早期，實現了Pandas的一部分功能。以一個股票波動的資料集為例，它所支援的Pandas功能包括檢查資料、查詢上漲的天數、按日期索引、按日期查詢、查詢股票上漲的所有日期等等。

這個專案的最終目標是在Ray上完整實現Pandas API的功能，讓使用者可以在雲上用Pandas。

目前，伯克利RiseLab的研究員們已經用45天時間，實現了Pandas DataFrame API的25%。

640?wx_fmt=jpeg

革命尚未成功，專案仍在繼續。這些人都在為之努力：

Devin Petersohn, Robert Nishihara, Philipp Moritz, Simon Mo, Kunal Gosar, Helen Che, Harikaran Subbaraj, Peter Veerman, Rohan Singh, Joseph Gonzalez, Ion Stoica, Anthony Joseph

更深入地瞭解Pandas on Ray請看RiseLab部落格原文：
https://rise.cs.berkeley.edu/blog/pandas-on-ray/

試用Pandas on Ray請參考這個文件：
https://rise.cs.berkeley.edu/blog/pandas-on-ray/

給Ray團隊提要求請到GitHub開issue：
https://github.com/ray-project/ray/issues

如果對Ray感興趣，可以讀一讀他們的論文：
https://arxiv.org/abs/1712.05889

— 完 —

加入社群

量子位AI社群15群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot6入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot6，並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

資料處理--pandas問題
2024-08-04
Python資料處理-pandas用法
2020-12-17
Python
資料的規範化——Pandas處理
2024-04-07
Python利用pandas處理資料與分析
2024-03-25
Python
資料預處理之 pandas 讀表
2020-03-01
只需一行程式碼，你的純文字秒變Markdown
2020-02-21
行程
分散式是大資料處理的萬用藥？
2023-10-08
分散式大資料
Hadoop大資料分散式處理系統簡介
2021-12-22
Hadoop大資料分散式
Pandas 基礎 (6) - 用 replace () 函式處理不合理資料
2019-03-24
函式
Pandas 基礎 (5) - 處理缺失的資料
2019-03-08
pandas 資料處理一些常用操作
2023-05-15
處理pandas讀取資料為nan時
2024-06-24
NaN
Python 資料處理庫 pandas 入門教程
2018-04-17
Python
Python 資料處理庫 pandas 進階教程
2018-04-18
Python
Pandas高階教程之:處理缺失資料
2021-06-24
Pandas高階教程之:處理text資料
2021-06-23
桌面輕量級資料處理指令碼
2020-12-03
指令碼
pandas 處理資料和crc16計算
2020-09-26
資料清洗與預處理：使用 Python Pandas 庫
2024-07-26
Python
從併發程式設計到分散式系統-如何處理海量資料（上）
2018-05-27
程式設計分散式
分散式資料物件：超級終端的"全域性變數"
2022-04-27
分散式物件變數
UCI資料集詳解及其資料處理（附148個資料集及處理程式碼）
2022-04-19
Laravel 分散式事務處理
2018-11-11
Laravel分散式
百億級資料處理優化
2019-07-16
優化
【Pandas學習筆記02】-資料處理高階用法
2021-12-01
筆記
【Pandas學習筆記02】處理資料實用操作
2021-11-26
筆記
資料預處理-資料整合與資料變換
2020-01-19
低程式碼低成本快速整合OA/ERP/MES系統 ——下秒資料
2022-07-08
springcloud分散式事務處理 LCN
2019-02-28
SpringGCCloud分散式
GaussDB(分散式)例項故障處理
2024-03-19
分散式
分散式事務處理方案，微服事務處理方案
2019-05-04
分散式
EasyExcel處理Mysql百萬資料的匯入匯出案例，秒級效率，拿來即用！
2024-05-11
ExcelMySql
Pandas 資料處理三板斧——map、apply、applymap 詳解
2020-01-15
APP
對pandas進行資料預處理的例項講解
2018-04-20
【Python自動化Excel】pandas處理Excel資料的基本流程
2022-01-09
PythonExcel
基於python的大資料分析-資料處理（程式碼實戰）
2019-08-30
Python大資料
[原始碼分析]並行分散式任務佇列 Celery 之子程式處理訊息
2021-04-25
原始碼並行分散式佇列
分散式流處理框架 Apache Storm —— 程式設計模型詳解
2019-06-28
分散式框架ApacheORM程式設計模型

一行程式碼，Pandas秒變分散式，快速處理TB級資料

夏乙 發自 凹非寺量子位 出品 | 公眾號 QbitAI

△ 在8核32G記憶體的AWS m5.2xlarge例項上，Ray、Dask和Pandas讀取csv的效能對比

相關文章

夏乙發自凹非寺
量子位出品 | 公眾號 QbitAI