在前兩篇關於 Python 切片的文章中,我們學習了切片的基礎用法、高階用法、使用誤區,以及自定義物件如何實現切片用法(相關連結見文末)。本文是切片系列的第三篇,主要內容是迭代器切片。
迭代器是 Python 中獨特的一種高階特性,而切片也是一種高階特性,兩者相結合,會產生什麼樣的結果呢?
1、迭代與迭代器
首先,有幾個基本概念要澄清:迭代、可迭代物件、迭代器。
迭代
是一種遍歷容器型別物件(例如字串、列表、字典等等)的方式,例如,我們說迭代一個字串“abc”,指的就是從左往右依次地、逐個地取出它的全部字元的過程。(PS:漢語中迭代一詞有迴圈反覆、層層遞進的意思,但 Python 中此詞要理解成單向水平線性 的,如果你不熟悉它,我建議直接將其理解為遍歷。)
那麼,怎麼寫出迭代操作的指令呢?最通用的書寫語法就是 for 迴圈。
# for迴圈實現迭代過程
for char in "abc":
print(char, end=" ")
# 輸出結果:a b c
複製程式碼
for 迴圈可以實現迭代的過程,但是,並非所有物件都可以用於 for 迴圈,例如,上例中若將字串“abc”換成任意整型數字,則會報錯: 'int' object is not iterable .
這句報錯中的單詞“iterable”指的是“可迭代的”,即 int 型別不是可迭代的。而字串(string)型別是可迭代的,同樣地,列表、元組、字典等型別,都是可迭代的。
那怎麼判斷一個物件是否可迭代呢?為什麼它們是可迭代的呢?怎麼讓一個物件可迭代呢?
要使一個物件可迭代,就要實現可迭代協議,即需要實現__iter__()
魔術方法,換言之,只要實現了這個魔術方法的物件都是可迭代物件。
那怎麼判斷一個物件是否實現了這個方法呢?除了上述的 for 迴圈外,我知道還有四種方法:
# 方法1:dir()檢視__iter__
dir(2) # 沒有,略
dir("abc") # 有,略
# 方法2:isinstance()判斷
import collections
isinstance(2, collections.Iterable) # False
isinstance("abc", collections.Iterable) # True
# 方法3:hasattr()判斷
hasattr(2,"__iter__") # False
hasattr("abc","__iter__") # True
# 方法4:用iter()檢視是否報錯
iter(2) # 報錯:'int' object is not iterable
iter("abc") # <str_iterator at 0x1e2396d8f28>
### PS:判斷是否可迭代,還可以檢視是否實現__getitem__,為方便描述,本文從略。
複製程式碼
這幾種方法中最值得一提的是 iter() 方法,它是 Python 的內建方法,其作用是將可迭代物件變成迭代器 。這句話可以解析出兩層意思:(1)可迭代物件跟迭代器是兩種東西;(2)可迭代物件能變成迭代器。
實際上,迭代器必然是可迭代物件,但可迭代物件不一定是迭代器。兩者有多大的區別呢?
如上圖藍圈所示,普通可迭代物件與迭代器的最關鍵區別可概括為:一同兩不同 ,所謂“一同”,即兩者都是可迭代的(__iter__
),所謂“兩不同”,即可迭代物件在轉化為迭代器後,它會丟失一些屬性(__getitem__
),同時也增加一些屬性(__next__
)。
首先看看增加的屬性 __next__
, 它是迭代器之所以是迭代器的關鍵,事實上,我們正是把同時實現了 __iter__
方法 和 __next__
方法的物件定義為迭代器的。
有了多出來的這個屬性,可迭代物件不需要藉助外部的 for 迴圈語法,就能實現自我的迭代/遍歷過程。我發明了兩個概念來描述這兩種遍歷過程(PS:為了易理解,這裡稱遍歷,實際也可稱為迭代):它遍歷
指的是通過外部語法而實現的遍歷,自遍歷
指的是通過自身方法實現的遍歷。
藉助這兩個概念,我們說,可迭代物件就是能被“它遍歷”的物件,而迭代器是在此基礎上,還能做到“自遍歷”的物件。
ob1 = "abc"
ob2 = iter("abc")
ob3 = iter("abc")
# ob1它遍歷
for i in ob1:
print(i, end = " ") # a b c
for i in ob1:
print(i, end = " ") # a b c
# ob1自遍歷
ob1.__next__() # 報錯: 'str' object has no attribute '__next__'
# ob2它遍歷
for i in ob2:
print(i, end = " ") # a b c
for i in ob2:
print(i, end = " ") # 無輸出
# ob2自遍歷
ob2.__next__() # 報錯:StopIteration
# ob3自遍歷
ob3.__next__() # a
ob3.__next__() # b
ob3.__next__() # c
ob3.__next__() # 報錯:StopIteration
複製程式碼
通過上述例子可看出,迭代器的優勢在於支援自遍歷,同時,它的特點是單向非迴圈的,一旦完成遍歷,再次呼叫就會報錯。
對此,我想到一個比方:普通可迭代物件就像是子彈匣,它遍歷就是取出子彈,在完成操作後又裝回去,所以可以反覆遍歷(即多次呼叫for迴圈,返回相同結果);而迭代器就像是裝載了子彈匣且不可拆卸的槍,進行它遍歷或者自遍歷都是發射子彈,這是消耗性的遍歷,是無法複用的(即遍歷會有盡頭)。
寫了這麼多,稍微小結一下:迭代是一種遍歷元素的方式,按照實現方式劃分,有外部迭代與內部迭代兩種,支援外部迭代(它遍歷)的物件就是可迭代物件,而同時還支援內部迭代(自遍歷)的物件就是迭代器;按照消費方式劃分,可分為複用型迭代與一次性迭代,普通可迭代物件是複用型的,而迭代器是一次性的。
2、迭代器切片
前面提到了“一同兩不同”,最後的不同是,普通可迭代物件在轉化成迭代器的過程中會丟失一些屬性,其中關鍵的屬性是 __getitem__
。在《Python進階:自定義物件實現切片功能》中,我曾介紹了這個魔術方法,並用它實現了自定義物件的切片特性。
那麼問題來了:為什麼迭代器不繼承這個屬性呢?
首先,迭代器使用的是消耗型的遍歷,這意味著它充滿不確定性,即其長度與索引鍵值對是動態衰減的,所以很難 get 到它的 item ,也就不再需要 __getitem__
屬性了。其次,若強行給迭代器加上這個屬性,這並不合理,正所謂強扭的瓜不甜......
由此,新的問題來了:既然會丟失這麼重要的屬性(還包括其它未標識的屬性),為什麼還要使用迭代器呢?
這個問題的答案在於,迭代器擁有不可替代的強大的有用的功能,使得 Python 要如此設計它。限於篇幅,此處不再展開,後續我會專門填坑此話題。
還沒完,死纏爛打的問題來了:能否令迭代器擁有這個屬性呢,即令迭代器繼續支援切片呢?
hi = "歡迎關注公眾號:Python貓"
it = iter(hi)
# 普通切片
hi[-7:] # Python貓
# 反例:迭代器切片
it[-7:] # 報錯:'str_iterator' object is not subscriptable
複製程式碼
迭代器因為缺少__getitem__
,因此不能使用普通的切片語法。想要實現切片,無非兩種思路:一是自己造輪子,寫實現的邏輯;二是找到封裝好的輪子。
Python 的 itertools 模組就是我們要找的輪子,用它提供的方法可輕鬆實現迭代器切片。
import itertools
# 例1:簡易迭代器
s = iter("123456789")
for x in itertools.islice(s, 2, 6):
print(x, end = " ") # 輸出:3 4 5 6
for x in itertools.islice(s, 2, 6):
print(x, end = " ") # 輸出:9
# 例2:斐波那契數列迭代器
class Fib():
def __init__(self):
self.a, self.b = 1, 1
def __iter__(self):
while True:
yield self.a
self.a, self.b = self.b, self.a + self.b
f = iter(Fib())
for x in itertools.islice(f, 2, 6):
print(x, end = " ") # 輸出:2 3 5 8
for x in itertools.islice(f, 2, 6):
print(x, end = " ") # 輸出:34 55 89 144
複製程式碼
itertools 模組的 islice() 方法將迭代器與切片完美結合,終於回答了前面的問題。然而,迭代器切片跟普通切片相比,前者有很多侷限性。首先,這個方法不是“純函式”(純函式需遵守“相同輸入得到相同輸出”的原則,之前在《來自Kenneth Reitz大神的建議:避免不必要的物件導向程式設計》提到過);其次,它只支援正向切片,且不支援負數索引,這都是由迭代器的損耗性所決定的。
那麼,我不禁要問:itertools 模組的切片方法用了什麼實現邏輯呢?下方是官網提供的原始碼:
def islice(iterable, *args):
# islice('ABCDEFG', 2) --> A B
# islice('ABCDEFG', 2, 4) --> C D
# islice('ABCDEFG', 2, None) --> C D E F G
# islice('ABCDEFG', 0, None, 2) --> A C E G
s = slice(*args)
# 索引區間是[0,sys.maxsize],預設步長是1
start, stop, step = s.start or 0, s.stop or sys.maxsize, s.step or 1
it = iter(range(start, stop, step))
try:
nexti = next(it)
except StopIteration:
# Consume *iterable* up to the *start* position.
for i, element in zip(range(start), iterable):
pass
return
try:
for i, element in enumerate(iterable):
if i == nexti:
yield element
nexti = next(it)
except StopIteration:
# Consume to *stop*.
for i, element in zip(range(i + 1, stop), iterable):
pass
複製程式碼
islice() 方法的索引方向是受限的,但它也提供了一種可能性:即允許你對一個無窮的(在系統支援範圍內)迭代器進行切片的能力。這是迭代器切片最具想象力的用途場景。
除此之外,迭代器切片還有一個很實在的應用場景:讀取檔案物件中給定行數範圍的資料。
在《給Python學習者的檔案讀寫指南(含基礎與進階,建議收藏)》裡,我介紹了從檔案中讀取內容的幾種方法:readline() 比較雞肋,不咋用;read() 適合讀取內容較少的情況,或者是需要一次性處理全部內容的情況;而 readlines() 用的較多,比較靈活,每次迭代讀取內容,既減少記憶體壓力,又方便逐行對資料處理。
雖然 readlines() 有迭代讀取的優勢,但它是從頭到尾逐行讀取,若檔案有幾千行,而我們只想要讀取少數特定行(例如第1000-1009行),那它還是效率太低了。考慮到檔案物件天然就是迭代器 ,我們可以使用迭代器切片先行擷取,然後再處理,如此效率將大大地提升。
# test.txt 檔案內容
'''
貓
Python貓
python is a cat.
this is the end.
'''
from itertools import islice
with open('test.txt','r',encoding='utf-8') as f:
print(hasattr(f, "__next__")) # 判斷是否迭代器
content = islice(f, 2, 4)
for line in content:
print(line.strip())
### 輸出結果:
True
python is a cat.
this is the end.
複製程式碼
3、小結
好啦,今天的學習就到這,小結一下:迭代器是一種特殊的可迭代物件,可用於它遍歷與自遍歷,但遍歷過程是損耗型的,不具備迴圈複用性,因此,迭代器本身不支援切片操作;通過藉助 itertools 模組,我們能實現迭代器切片,將兩者的優勢相結合,其主要用途在於擷取大型迭代器(如無限數列、超大檔案等等)的片段,實現精準的處理,從而大大地提升效能與效率。
切片系列:
相關連結:
《來自Kenneth Reitz大神的建議:避免不必要的物件導向程式設計》
《給Python學習者的檔案讀寫指南(含基礎與進階,建議收藏)》
-----------------
本文原創並首發於微信公眾號【Python貓】,後臺回覆“愛學習”,免費獲得20+本精選電子書。