(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

费弗里發表於2024-08-07

本文完整程式碼及附件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes

1 簡介

  大家好我是費老師,今天要給大家介紹的Python框架叫做ibis,沒錯,跟著名連鎖酒店宜必思同名,其作者是創造了pandasArrow等著名框架的Wes McKinney

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

  ibis的核心理念是用同一套資料框操作API,統一操縱各種主流的資料運算框架,使得使用者可以更輕鬆更一致的構建自己的資料分析處理過程,而不是囿於不同框架之間千差萬別的用法,下面我們就來一起學習其基礎用法😉~

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

2 ibis基礎用法介紹

2.1 ibis的安裝

  為了方便演示,我們這裡使用condamamba建立新的虛擬環境,來安裝試用ibis,以mamba為例,在終端中執行下列命令,完成演示用虛擬環境的建立及啟用,並安裝ibis最基礎的相關模組+示例資料集模組:

mamba create -n ibis-demo python=3.9 -y

mamba activate ibis-demo

pip install ibis-framework[duckdb,examples]

  驗證是否安裝成功:

python -c "import ibis;print(ibis.__version__)"

  可以看到,我們完成了對ibis的安裝,當前版本為9.0.0

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

2.2 ibis主要功能

2.2.1 構建具有便攜性的分析邏輯

  ibis本身不直接執行分析計算,當我們針對目標資料編寫好對應計算邏輯的ibis程式碼後,實際執行時其底層會將計算邏輯自動轉換到當前的計算後端中。目前ibis支援超過20種計算後端,均為當前單機分析分散式分析領域的主流框架:

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

  這使得基於ibis構建的資料分析工作流,可以在不修改程式碼的情況下,輕鬆擴充套件應用於任意的計算後端。

  譬如,ibis預設使用DuckDB作為後端進行單機分析運算,你可以在本機上使用部分資料構建並驗證業務分析邏輯後,再套用相同的程式碼,切換計算後端到諸如ClickHouse上執行分散式運算,這一特性也是ibis便攜性的體現。

  舉個簡單的例子,首先我們基於pandas生成具有一千萬行記錄的示例資料並匯出為parquet格式:

import numpy as np
import pandas as pd

# 生成測試用資料並匯出為parquet格式
(
    pd
    .DataFrame(
        {
            '類別': np.random.choice(list('abcdef'), 10000000),
            '數值': np.random.uniform(0, 100, 10000000)
        }
    )
    .assign(數值=lambda df: df['數值'].round(3))
    .to_parquet('demo.parquet')
)

  接下來我們先使用預設的DuckDB後端,在ibis中執行一些示例運算,注意其運算耗時:

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

  接著,我們切換計算後端為pandas,執行完全一樣的計算程式碼,可以看到計算耗時陡增,畢竟pandas處理上千萬行資料效能要遠遜於DuckDB,這個例子體現出ibis強大的程式碼便攜性:

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

2.2.2 充分搭配Python與SQL

  ibis中另一個非常強大的功能,是其可以充分結合Python程式碼和SQL程式碼來開展分析工作,譬如,你可以將ibis分析程式碼直接轉換為SQL語句:

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

  也可以直接執行SQL語句開展分析:

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

  這使得ibis可以充分聯結各類最先進的計算後端,幫助分析師輕鬆維護業務分析邏輯。

  無論你原先在使用pandasSQL還是R進行資料分析,ibis官網文件中都提供了非常友好的使用指南,確保你可以無痛的遷移使用ibis

(資料科學學習手札163)ibis:極具潛力的Python資料分析框架

  ibis正處於高速迭代發展階段,其程式碼倉庫幾乎每天都在進行新的提交活動,歡迎進行⭐支援:https://github.com/ibis-project/ibis

  更多相關內容,請移步其官網學習更多:https://ibis-project.org/


  以上就是本文的全部內容,歡迎在評論區與我們進行討論~

相關文章