Python進階：迭代器與迭代器切片

豌豆花下貓發表於2018-12-30

原文網址 : https://juejin.im/post/5c28a748f265da615304daff

在前兩篇關於 Python 切片的文章中，我們學習了切片的基礎用法、高階用法、使用誤區，以及自定義物件如何實現切片用法（相關連結見文末）。本文是切片系列的第三篇，主要內容是迭代器切片。

迭代器是 Python 中獨特的一種高階特性，而切片也是一種高階特性，兩者相結合，會產生什麼樣的結果呢？

1、迭代與迭代器

首先，有幾個基本概念要澄清：迭代、可迭代物件、迭代器。

迭代 是一種遍歷容器型別物件（例如字串、列表、字典等等）的方式，例如，我們說迭代一個字串“abc”，指的就是從左往右依次地、逐個地取出它的全部字元的過程。（PS：漢語中迭代一詞有迴圈反覆、層層遞進的意思，但 Python 中此詞要理解成單向水平線性 的，如果你不熟悉它，我建議直接將其理解為遍歷。）

那麼，怎麼寫出迭代操作的指令呢？最通用的書寫語法就是 for 迴圈。

# for迴圈實現迭代過程
for char in "abc":
    print(char, end=" ")
# 輸出結果：a b c
複製程式碼

for 迴圈可以實現迭代的過程，但是，並非所有物件都可以用於 for 迴圈，例如，上例中若將字串“abc”換成任意整型數字，則會報錯： 'int' object is not iterable .

這句報錯中的單詞“iterable”指的是“可迭代的”，即 int 型別不是可迭代的。而字串（string）型別是可迭代的，同樣地，列表、元組、字典等型別，都是可迭代的。

那怎麼判斷一個物件是否可迭代呢？為什麼它們是可迭代的呢？怎麼讓一個物件可迭代呢？

要使一個物件可迭代，就要實現可迭代協議，即需要實現__iter__() 魔術方法，換言之，只要實現了這個魔術方法的物件都是可迭代物件。

那怎麼判斷一個物件是否實現了這個方法呢？除了上述的 for 迴圈外，我知道還有四種方法：

# 方法1：dir()檢視__iter__
dir(2)     # 沒有，略
dir("abc") # 有，略

# 方法2：isinstance()判斷
import collections
isinstance(2, collections.Iterable)     # False
isinstance("abc", collections.Iterable) # True

# 方法3：hasattr()判斷
hasattr(2,"__iter__")     # False
hasattr("abc","__iter__") # True

# 方法4：用iter()檢視是否報錯
iter(2)     # 報錯：'int' object is not iterable
iter("abc") # <str_iterator at 0x1e2396d8f28>

### PS：判斷是否可迭代，還可以檢視是否實現__getitem__，為方便描述，本文從略。
複製程式碼

這幾種方法中最值得一提的是 iter() 方法，它是 Python 的內建方法，其作用是將可迭代物件變成迭代器 。這句話可以解析出兩層意思：（1）可迭代物件跟迭代器是兩種東西；（2）可迭代物件能變成迭代器。

實際上，迭代器必然是可迭代物件，但可迭代物件不一定是迭代器。兩者有多大的區別呢？

如上圖藍圈所示，普通可迭代物件與迭代器的最關鍵區別可概括為：一同兩不同 ，所謂“一同”，即兩者都是可迭代的（__iter__），所謂“兩不同”，即可迭代物件在轉化為迭代器後，它會丟失一些屬性（__getitem__），同時也增加一些屬性（__next__）。

首先看看增加的屬性 __next__ ，它是迭代器之所以是迭代器的關鍵，事實上，我們正是把同時實現了 __iter__ 方法和 __next__ 方法的物件定義為迭代器的。

有了多出來的這個屬性，可迭代物件不需要藉助外部的 for 迴圈語法，就能實現自我的迭代/遍歷過程。我發明了兩個概念來描述這兩種遍歷過程（PS：為了易理解，這裡稱遍歷，實際也可稱為迭代）：它遍歷 指的是通過外部語法而實現的遍歷，自遍歷 指的是通過自身方法實現的遍歷。

藉助這兩個概念，我們說，可迭代物件就是能被“它遍歷”的物件，而迭代器是在此基礎上，還能做到“自遍歷”的物件。

ob1 = "abc"
ob2 = iter("abc")
ob3 = iter("abc")

# ob1它遍歷
for i in ob1:
    print(i, end = " ")   # a b c
for i in ob1:
    print(i, end = " ")   # a b c
# ob1自遍歷
ob1.__next__()  # 報錯： 'str' object has no attribute '__next__'

# ob2它遍歷
for i in ob2:
    print(i, end = " ")   # a b c    
for i in ob2:
    print(i, end = " ")   # 無輸出
# ob2自遍歷
ob2.__next__()  # 報錯：StopIteration

# ob3自遍歷
ob3.__next__()  # a
ob3.__next__()  # b
ob3.__next__()  # c
ob3.__next__()  # 報錯：StopIteration
複製程式碼

通過上述例子可看出，迭代器的優勢在於支援自遍歷，同時，它的特點是單向非迴圈的，一旦完成遍歷，再次呼叫就會報錯。

對此，我想到一個比方：普通可迭代物件就像是子彈匣，它遍歷就是取出子彈，在完成操作後又裝回去，所以可以反覆遍歷（即多次呼叫for迴圈，返回相同結果）；而迭代器就像是裝載了子彈匣且不可拆卸的槍，進行它遍歷或者自遍歷都是發射子彈，這是消耗性的遍歷，是無法複用的（即遍歷會有盡頭）。

寫了這麼多，稍微小結一下：迭代是一種遍歷元素的方式，按照實現方式劃分，有外部迭代與內部迭代兩種，支援外部迭代（它遍歷）的物件就是可迭代物件，而同時還支援內部迭代（自遍歷）的物件就是迭代器；按照消費方式劃分，可分為複用型迭代與一次性迭代，普通可迭代物件是複用型的，而迭代器是一次性的。

2、迭代器切片

前面提到了“一同兩不同”，最後的不同是，普通可迭代物件在轉化成迭代器的過程中會丟失一些屬性，其中關鍵的屬性是 __getitem__ 。在《Python進階：自定義物件實現切片功能》中，我曾介紹了這個魔術方法，並用它實現了自定義物件的切片特性。

那麼問題來了：為什麼迭代器不繼承這個屬性呢？

首先，迭代器使用的是消耗型的遍歷，這意味著它充滿不確定性，即其長度與索引鍵值對是動態衰減的，所以很難 get 到它的 item ，也就不再需要 __getitem__ 屬性了。其次，若強行給迭代器加上這個屬性，這並不合理，正所謂強扭的瓜不甜......

由此，新的問題來了：既然會丟失這麼重要的屬性（還包括其它未標識的屬性），為什麼還要使用迭代器呢？

這個問題的答案在於，迭代器擁有不可替代的強大的有用的功能，使得 Python 要如此設計它。限於篇幅，此處不再展開，後續我會專門填坑此話題。

還沒完，死纏爛打的問題來了：能否令迭代器擁有這個屬性呢，即令迭代器繼續支援切片呢？

hi = "歡迎關注公眾號：Python貓"
it = iter(hi)

# 普通切片
hi[-7:] # Python貓

# 反例：迭代器切片
it[-7:] # 報錯：'str_iterator' object is not subscriptable
複製程式碼

迭代器因為缺少__getitem__ ，因此不能使用普通的切片語法。想要實現切片，無非兩種思路：一是自己造輪子，寫實現的邏輯；二是找到封裝好的輪子。

Python 的 itertools 模組就是我們要找的輪子，用它提供的方法可輕鬆實現迭代器切片。

import itertools

# 例1：簡易迭代器
s = iter("123456789")
for x in itertools.islice(s, 2, 6):
    print(x, end = " ")   # 輸出：3 4 5 6
for x in itertools.islice(s, 2, 6):
    print(x, end = " ")   # 輸出：9

# 例2：斐波那契數列迭代器
class Fib():
    def __init__(self):
        self.a, self.b = 1, 1

    def __iter__(self):
        while True:
            yield self.a
            self.a, self.b = self.b, self.a + self.b
f = iter(Fib())
for x in itertools.islice(f, 2, 6):
    print(x, end = " ")  # 輸出：2 3 5 8
for x in itertools.islice(f, 2, 6):
    print(x, end = " ")  # 輸出：34 55 89 144
複製程式碼

itertools 模組的 islice() 方法將迭代器與切片完美結合，終於回答了前面的問題。然而，迭代器切片跟普通切片相比，前者有很多侷限性。首先，這個方法不是“純函式”（純函式需遵守“相同輸入得到相同輸出”的原則，之前在《來自Kenneth Reitz大神的建議：避免不必要的物件導向程式設計》提到過）；其次，它只支援正向切片，且不支援負數索引，這都是由迭代器的損耗性所決定的。

那麼，我不禁要問：itertools 模組的切片方法用了什麼實現邏輯呢？下方是官網提供的原始碼：

def islice(iterable, *args):
    # islice('ABCDEFG', 2) --> A B
    # islice('ABCDEFG', 2, 4) --> C D
    # islice('ABCDEFG', 2, None) --> C D E F G
    # islice('ABCDEFG', 0, None, 2) --> A C E G
    s = slice(*args)
    # 索引區間是[0,sys.maxsize]，預設步長是1
    start, stop, step = s.start or 0, s.stop or sys.maxsize, s.step or 1
    it = iter(range(start, stop, step))
    try:
        nexti = next(it)
    except StopIteration:
        # Consume *iterable* up to the *start* position.
        for i, element in zip(range(start), iterable):
            pass
        return
    try:
        for i, element in enumerate(iterable):
            if i == nexti:
                yield element
                nexti = next(it)
    except StopIteration:
        # Consume to *stop*.
        for i, element in zip(range(i + 1, stop), iterable):
            pass
複製程式碼

islice() 方法的索引方向是受限的，但它也提供了一種可能性：即允許你對一個無窮的（在系統支援範圍內）迭代器進行切片的能力。這是迭代器切片最具想象力的用途場景。

除此之外，迭代器切片還有一個很實在的應用場景：讀取檔案物件中給定行數範圍的資料。

在《給Python學習者的檔案讀寫指南（含基礎與進階，建議收藏）》裡，我介紹了從檔案中讀取內容的幾種方法：readline() 比較雞肋，不咋用；read() 適合讀取內容較少的情況，或者是需要一次性處理全部內容的情況；而 readlines() 用的較多，比較靈活，每次迭代讀取內容，既減少記憶體壓力，又方便逐行對資料處理。

雖然 readlines() 有迭代讀取的優勢，但它是從頭到尾逐行讀取，若檔案有幾千行，而我們只想要讀取少數特定行（例如第1000-1009行），那它還是效率太低了。考慮到檔案物件天然就是迭代器 ，我們可以使用迭代器切片先行擷取，然後再處理，如此效率將大大地提升。

# test.txt 檔案內容
'''
貓
Python貓
python is a cat.
this is the end.
'''

from itertools import islice
with open('test.txt','r',encoding='utf-8') as f:
    print(hasattr(f, "__next__"))  # 判斷是否迭代器
    content = islice(f, 2, 4)
    for line in content:
        print(line.strip())
### 輸出結果：
True
python is a cat.
this is the end.
複製程式碼

3、小結

好啦，今天的學習就到這，小結一下：迭代器是一種特殊的可迭代物件，可用於它遍歷與自遍歷，但遍歷過程是損耗型的，不具備迴圈複用性，因此，迭代器本身不支援切片操作；通過藉助 itertools 模組，我們能實現迭代器切片，將兩者的優勢相結合，其主要用途在於擷取大型迭代器（如無限數列、超大檔案等等）的片段，實現精準的處理，從而大大地提升效能與效率。

切片系列：

《Python進階：切片的誤區與高階用法》

《Python進階：自定義物件實現切片功能》

相關連結：

《官網的itertools模組介紹》

《來自Kenneth Reitz大神的建議：避免不必要的物件導向程式設計》

《給Python學習者的檔案讀寫指南（含基礎與進階，建議收藏）》

-----------------

本文原創並首發於微信公眾號【Python貓】，後臺回覆“愛學習”，免費獲得20+本精選電子書。

Python 函式進階-迭代器
2022-04-21
Python函式
Python可迭代的物件與迭代器
2021-12-14
Python物件
Python——迭代器的高階用法
2020-03-31
Python
Python 迭代器
2019-03-17
Python
Python迭代器
2022-07-09
Python
Iterator與Iterable(迭代器與可迭代)
2024-07-28
迭代器切片/itertools.islice/yield返回
2024-03-22
Python迭代器與生成器
2024-04-15
Python
python中的迭代器
2022-03-23
Python
深度理解Python迭代器
2021-05-20
Python
Python之可迭代物件、迭代器、生成器
2021-12-16
Python物件
python高階特性：切片/迭代/列表生成式/生成器
2018-04-22
Python
協程與迭代器
2024-03-24
Python: 列表、陣列及迭代器切片的區別及聯絡
2022-07-10
Python陣列
史上最全 Python 迭代器與生成器
2019-03-30
Python
迭代器
2024-09-14
《python-美藏篇》1.可迭代、迭代器與生成器
2022-01-01
Python
Python 擴充之迭代器
2018-12-21
Python
Python學習迭代器（Iterator）
2024-05-18
Python
Python Rust 迭代器對比
2019-07-10
PythonRust
python 生成器&迭代器
2019-02-21
Python
python迭代器是什麼
2021-09-11
Python
迭代器與生成器
2020-10-31
[OI] 指標與迭代器
2024-06-07
指標
Python迭代器&生成器&裝飾器
2020-12-10
Python
你知道JavaScript中的可迭代物件與迭代器嗎
2021-09-11
JavaScript物件
TypeScript迭代器
2019-02-16
TypeScript
Iterator迭代器
2020-10-13
迭代器 iterator
2024-09-27
Lua迭代器
2022-07-26
Ruby迭代器
2021-08-10
迭代器模式
2021-06-21
模式
Python3 迭代器深入解析
2020-07-16
Python
python_August(迭代器、生成式）
2024-09-05
Python
Python中迭代器的實現
2021-09-11
Python
迭代器模式大幅提升Python效能
2021-04-02
模式Python
搞清楚 Python 的迭代器、可迭代物件、生成器
2018-11-14
Python物件
前端面試複習2：迭代器,生成器與非同步迭代器
2019-03-20
前端面試非同步

Python進階：迭代器與迭代器切片

1、迭代與迭代器

2、迭代器切片

3、小結

相關文章