Python實用技法第15篇:篩選序列中的元素

Mark發表於2019-02-16

上一篇文章:Python實用技法第14篇:根據欄位將記錄分組:itertools.groupby()
下一篇文章:Python實用技法第16篇:從字典中提取子集

1、需求?

序列中含有一些資料,我們需要提取其中的值或根據某些標準對序列做刪減,

2、解決方案?

要篩選序列中的資料,通常最簡單的方法是使用列表推導式。

例如:

myList=[1,4,-5,10,-7,2,3,-1]
print([n for n in myList if n>0])
print([n for n in myList if n<0])

結果:

[1, 4, 10, 2, 3]
[-5, -7, -1]

使用列表推導式的一個潛在缺點是如果原始輸入非常大的話,這麼做可能會產生一個龐大的結果。如果這是你需要考慮的問題,那麼可以使用生成器表示式通過迭代的方法產生篩選結果,例如:

myList=[1,4,-5,10,-7,2,3,-1]
pos=(n for n in myList if n >0)
for x in pos:
    print(x)

結果:

1
4
10
2
3

有時候篩選的標準沒法簡單地表示在列表推導式或生成器表示式中。比如:假設篩選過程涉及異常處理或者其他一些複雜的細節。基於從,可以將處理篩選邏輯的程式碼放到單獨的函式中,然後使用內建的filter()函式處理,示例如下:

values=[`1`,`2`,`-3`,`-`,`4`,`N/A`,`5`]
def is_int(val):
    try:
        x=int(val)
        return True
    except ValueError:
        return False

ivals=list(filter(is_int,values))
print(ivals)

結果:

[`1`, `2`, `-3`, `4`, `5`]

filter()建立了一個迭代器,因此如果我們想要的是列表形式的結果,請確保加上了list(),就像示例中那樣。

3、分析

列表推導式和生成器表示式通常是用來篩選資料的最簡單和最直接的方式。此外,它們也具有同時對資料做轉換的能力。例如:

import math
myList=[1,4,-5,10,-7,2,3,-1]
print([math.sqrt(n) for n in myList if n>0])

結果:

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]

關於篩選資料,有一種情況是用新值替換掉不滿足標準的值,而不是拋棄它們。例如。除了要找到正整數之外,我們也希望在指定範圍內將不滿足要求的值替換掉。通常,這可以通過將篩選條件遷移到一個條件表示式中來輕鬆實現,就像下面這樣:

myList=[1,4,-5,10,-7,2,3,-1]
print([n if n>0 else 0 for n in myList])
print([n if n<0 else 0 for n in myList])

結果:

[1, 4, 0, 10, 0, 2, 3, 0]
[0, 0, -5, 0, -7, 0, 0, -1]

另一個值得一提的篩選工具是itertools.compress(),它接受一個可迭代物件以及一個布林選擇器序列作為輸入。輸出時,它會給出所有在相應的布林選擇器中為True的可迭代物件元素。如果想把對一個序列的篩選結果施加到另一個相關的序列上時,這就會非常有用。

例如:

from itertools import compress
address=[
`5412 N CLARK1`,
`5148 N CLARK2`,
`5800 E CLARK3`,
`2122 N CLARK4`,
`5645 M CLARK5`,
`1060 W CLARK6`,
]
counts=[0,3,10,4,1,7]
#構建一個列表,它相應的count值要大於5
more5=[n>5 for n in counts]
print(more5)

print(list(compress(address,more5)))

結果:

[False, False, True, False, False, True]
[`5800 E CLARK3`, `1060 W CLARK6`]

這裡的關鍵在於首先建立一個布林序列,用來表示哪個元素可滿足我們的條件,然後compress()函式挑選出滿足布林值為True的相應元素。

同filter()函式一樣,正常情況下,compress()會返回一個迭代器。因此,如果需要的話,得使用list()將結果轉為列表。

上一篇文章:Python實用技法第14篇:根據欄位將記錄分組:itertools.groupby()
下一篇文章:Python實用技法第16篇:從字典中提取子集

相關文章