本文完整程式碼及附件已上傳至我的
Github
倉庫https://github.com/CNFeffery/DataScienceStudyNotes
1 簡介
大家好我是費老師,今天要給大家介紹的Python
框架叫做ibis
,沒錯,跟著名連鎖酒店宜必思同名,其作者是創造了pandas
、Arrow
等著名框架的Wes McKinney。
ibis
的核心理念是用同一套資料框操作API,統一操縱各種主流的資料運算框架,使得使用者可以更輕鬆更一致的構建自己的資料分析處理過程,而不是囿於不同框架之間千差萬別的用法,下面我們就來一起學習其基礎用法😉~
2 ibis基礎用法介紹
2.1 ibis的安裝
為了方便演示,我們這裡使用conda
或mamba
建立新的虛擬環境,來安裝試用ibis
,以mamba
為例,在終端中執行下列命令,完成演示用虛擬環境的建立及啟用,並安裝ibis
最基礎的相關模組+示例資料集模組:
mamba create -n ibis-demo python=3.9 -y
mamba activate ibis-demo
pip install ibis-framework[duckdb,examples]
驗證是否安裝成功:
python -c "import ibis;print(ibis.__version__)"
可以看到,我們完成了對ibis
的安裝,當前版本為9.0.0
:
2.2 ibis主要功能
2.2.1 構建具有便攜性的分析邏輯
ibis
本身不直接執行分析計算,當我們針對目標資料編寫好對應計算邏輯的ibis
程式碼後,實際執行時其底層會將計算邏輯自動轉換到當前的計算後端中。目前ibis
支援超過20種計算後端,均為當前單機分析、分散式分析領域的主流框架:
這使得基於ibis
構建的資料分析工作流,可以在不修改程式碼的情況下,輕鬆擴充套件應用於任意的計算後端。
譬如,ibis
預設使用DuckDB
作為後端進行單機分析運算,你可以在本機上使用部分資料構建並驗證業務分析邏輯後,再套用相同的程式碼,切換計算後端到諸如ClickHouse
上執行分散式運算,這一特性也是ibis
便攜性的體現。
舉個簡單的例子,首先我們基於pandas
生成具有一千萬行記錄的示例資料並匯出為parquet
格式:
import numpy as np
import pandas as pd
# 生成測試用資料並匯出為parquet格式
(
pd
.DataFrame(
{
'類別': np.random.choice(list('abcdef'), 10000000),
'數值': np.random.uniform(0, 100, 10000000)
}
)
.assign(數值=lambda df: df['數值'].round(3))
.to_parquet('demo.parquet')
)
接下來我們先使用預設的DuckDB
後端,在ibis
中執行一些示例運算,注意其運算耗時:
接著,我們切換計算後端為pandas
,執行完全一樣的計算程式碼,可以看到計算耗時陡增,畢竟pandas
處理上千萬行資料效能要遠遜於DuckDB
,這個例子體現出ibis
強大的程式碼便攜性:
2.2.2 充分搭配Python與SQL
ibis
中另一個非常強大的功能,是其可以充分結合Python
程式碼和SQL
程式碼來開展分析工作,譬如,你可以將ibis
分析程式碼直接轉換為SQL
語句:
也可以直接執行SQL
語句開展分析:
這使得ibis
可以充分聯結各類最先進的計算後端,幫助分析師輕鬆維護業務分析邏輯。
無論你原先在使用pandas
、SQL
還是R
進行資料分析,ibis
官網文件中都提供了非常友好的使用指南,確保你可以無痛的遷移使用ibis
:
ibis
正處於高速迭代發展階段,其程式碼倉庫幾乎每天都在進行新的提交活動,歡迎進行⭐支援:https://github.com/ibis-project/ibis
更多相關內容,請移步其官網學習更多:https://ibis-project.org/
以上就是本文的全部內容,歡迎在評論區與我們進行討論~