Python apply函式

ii_chengzi發表於2019-10-13

1、介紹

apply函式是 pandas裡面所有函式中自由度最高的函式。該函式如下:

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

該函式最有用的是第一個引數,這個引數是函式,相當於C/C++的函式指標。

這個函式需要自己實現,函式的傳入引數根據axis來定,比如axis = 1,就會把一行資料作為Series的資料 結構傳入給自己實現的函式中,我們在函式中實現對Series不同屬性之間的計算,返回一個結果,則apply函式 會自動遍歷每一行DataFrame的資料,最後將所有結果組合成一個Series資料結構並返回。

2、樣例

import numpy as npimport pandas as pd
f = lambda x: x.max()-x.min()
df = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index=['utah', 'ohio', 'texas', 'oregon'])print(df)
t1 = df.apply(f)print(t1)
t2 = df.apply(f, axis=1)print(t2)

 

輸出結果如下所示:

               b         d         e
utah    1.106486  0.101113 -0.494279ohio    0.955676 -1.889499  0.522151texas   1.891144 -0.670588  0.106530oregon -0.062372  0.991231  0.294464b    1.953516d    2.880730e    1.016430dtype: float64
utah      1.600766ohio      2.845175texas     2.561732oregon    1.053603dtype: float64

 

3、效能比較

df = pd.DataFrame({'a': np.random.randn(6),                   'b': ['foo', 'bar'] * 3,                   'c': np.random.randn(6)})def my_test(a, b):    return a + bprint(df)
df['Value'] = df.apply(lambda row: my_test(row['a'], row['c']), axis=1) # 方法1print(df)
df['Value2'] = df['a'] + df['c']  # 方法2print(df)

 

輸出結果如下:

          a    b         c
0 -1.194841  foo  1.648214
1 -0.377554  bar  0.496678
2  1.524940  foo -1.245333
3 -0.248150  bar  1.526515
4  0.283395  foo  1.282233
5  0.117674  bar -0.094462
          a    b         c     Value
0 -1.194841  foo  1.648214  0.453374
1 -0.377554  bar  0.496678  0.119124
2  1.524940  foo -1.245333  0.279607
3 -0.248150  bar  1.526515  1.278365
4  0.283395  foo  1.282233  1.565628
5  0.117674  bar -0.094462  0.023212
          a    b         c     Value    Value2
0 -1.194841  foo  1.648214  0.453374  0.453374
1 -0.377554  bar  0.496678  0.119124  0.119124
2  1.524940  foo -1.245333  0.279607  0.279607
3 -0.248150  bar  1.526515  1.278365  1.278365
4  0.283395  foo  1.282233  1.565628  1.565628
5  0.117674  bar -0.094462  0.023212  0.023212

 

注意:當資料量很大時,對於簡單的邏輯處理建議方法2(個人處理幾百M資料集時,方法1花時200s左右,方法2花時10s)!!!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31543790/viewspace-2659824/,如需轉載,請註明出處,否則將追究法律責任。

相關文章