在pandas中使用pipe()提升程式碼可讀性

費弗裡發表於2020-11-07

原文網址 : https://www.cnblogs.com/feffery/p/13941809.html

1 簡介

　　我們在利用pandas開展資料分析時，應儘量避免過於碎片化的組織程式碼，尤其是建立出過多不必要的中間變數，既浪費了記憶體，又帶來了關於變數命名的麻煩，更不利於整體分析過程程式碼的可讀性，因此以流水線方式組織程式碼非常有必要。

圖1

　　而在以前我撰寫的一些文章中，為大家介紹過pandas中的eval()和query()這兩個幫助我們鏈式書寫程式碼，搭建資料分析工作流的實用API，再加上下面要介紹的pipe()，我們就可以將任意pandas程式碼完美組織成流水線形式。

2 在pandas中靈活利用pipe()

　　pipe()顧名思義，就是專門用於對Series和DataFrame操作進行流水線（pipeline）改造的API，其作用是將巢狀的函式呼叫過程改造為鏈式過程，其第一個引數func傳入作用於對應Series或DataFrame的函式。

　　具體來說pipe()有兩種使用方式，第一種方式下，傳入函式對應的第一個位置上的引數必須是目標Series或DataFrame，其他相關的引數使用常規的鍵值對方式傳入即可，就像下面的例子一樣，我們自編函式對泰坦尼克資料集進行一些基礎的特徵工程處理：

import pandas as pd

train = pd.read_csv('train.csv')

def do_something(data, dummy_columns):
    '''
    自編示例函式
    '''

    data = (
        pd
        # 對指定列生成啞變數
        .get_dummies(data, # 先刪除data中指定列
                     columns=dummy_columns,
                     drop_first=True)
    )
    
    return data

# 鏈式流水線
(
    train
    # 將Pclass列轉換為字元型以便之後的啞變數處理
    .eval('Pclass=Pclass.astype("str")', engine='python')
    # 刪除指定列
    .drop(columns=['PassengerId', 'Name', 'Cabin', 'Ticket'])
    # 利用pipe以鏈式的方式呼叫自編函式
    .pipe(do_something, 
          dummy_columns=['Pclass', 'Sex', 'Embarked'])
    # 刪除含有缺失值的行
    .dropna()
)

　　可以看到，在緊接著drop()下一步的pipe()中，我們將自編函式作為其第一個引數傳入，從而將一系列操作巧妙地嵌入到鏈式過程中。

　　第二種使用方式適合目標Series和DataFrame不為傳入函式第一個引數的情況，譬如下面的例子中我們假設目標輸入資料為第二個引數data2，則pipe()的第一個引數應以(函式名, '引數名稱')的格式傳入：

def do_something(data1, data2, axis):
    '''
    自編示例函式
    '''

    data = (
        pd
        .concat([data1, data2], axis=axis)
    )
    
    return data

# pipe()第二種使用方式
(
    train
    .pipe((do_something, 'data2'), data1=train, axis=0)
)

　　在這樣的設計下我們可以避免很多函式巢狀呼叫方式，隨心所欲地優化我們的程式碼~

　　以上就是本文的全部內容，歡迎在評論區與我進行討論~

[譯] 使用多重賦值與元組解包提升 Python 程式碼的可讀性
2018-07-04
賦值Python
Java 8 中的方法引用，輕鬆減少程式碼量，提升可讀性！
2020-12-08
Java
使用JSDoc提高程式碼的可讀性
2019-04-22
JS
程式碼可讀性隨想
2019-02-16
一對一影片直播原始碼，利用列舉提升程式碼的可讀性
2024-06-29
原始碼
Pandas - pandas.Series.pipe 函式
2024-03-13
函式
程式碼行數越多可讀性越好？
2024-05-17
幾行程式碼提升Pandas效能150倍
2024-06-27
行程
使用 ABAP Open SQL 的 Select AS 別名，提高程式碼可讀性
2022-04-03
SQL
使用 Macro 讓你的程式碼更簡潔，更具有可讀性
2022-03-24
Mac
【原創】【深入淺出系列】之程式碼可讀性
2024-08-13
讓程式碼具有可讀性的10種最佳實踐
2018-09-19
Airtest指令碼的重構與最佳化：提升測試效率和可讀性
2024-06-14
AI指令碼
Java 列舉（Enums）解析：提高程式碼可讀性與易維護性
2024-03-06
Java
程式碼可讀性心理學
2018-10-05
命名&可閱讀的程式碼
2021-01-09
精讀《pipe operator for JavaScript》
2022-02-07
JavaScript
自研、好用、夠快、穩定、程式碼可讀性強的ORM
2023-10-26
ORM
值得細讀！如何系統有效地提升 Android 程式碼的安全性？
2019-03-03
Android
OpenCL中的管道cl::Pipe的使用
2024-06-06
程式碼質量第 3 層 - 可讀的程式碼
2022-01-13
Java開發中存在這樣的程式碼，反而影響整體整潔和可讀性
2019-05-10
Java
在 phpunit 的資料提供者中使用 yield 讓變數更具可讀性
2019-12-28
PHP變數
pandas讀取excel亂碼報錯
2024-05-24
Excel
編寫可讀性程式碼的藝術--萬字總結，看到即學到
2023-09-20
使用 CSS perfer-* 規範，提升網站的可訪問性與健壯性
2021-05-24
CSS網站
如何提高程式碼的可維護性
2021-09-09
如何提高程式碼的可測試性
2021-01-26
可觀察性在事件響應中的作用
2023-11-29
事件
精讀《可維護性思考》
2021-10-11
linux環境程式設計(2): 使用pipe完成程式間通訊
2023-01-24
Linux程式設計
書寫可維護程式碼的重要性
2019-04-26
編寫可閱讀的程式碼--基本規約
2018-06-06
用 PGP 保護程式碼完整性（六）：在 Git 上使用 PGP
2019-01-07
Git
在Linux中，管道（pipe）和重定向（redirection）的是什麼?
2024-04-05
Linux
前端質量提升利器-馬可程式碼覆蓋率平臺
2022-01-10
前端
使用shell指令碼在Linux中管理Java應用程式
2024-06-14
指令碼LinuxJava
[探索] 在開發中儘量提高程式碼的複用性
2018-10-08

在pandas中使用pipe()提升程式碼可讀性

1 簡介

2 在pandas中靈活利用pipe()

相關文章