Python中迭代器的實現

jerrysun發表於2021-09-11

問題是在Python中進行迴圈的時候產生的,熟悉Python的都知道,它沒有類似其它語言中的for迴圈, 只能透過for in的方式進行迴圈遍歷。

Python中迭代器的實現

最典型的應用就是透過range函式產生一個列表,然後用for in進行操作,如下:

程式碼如下:

#!/usr/bin/env python
for i in range(10):
print i

程式碼的意義很好理解,range會產生一個列表,用for in最這個列表進行遍歷,就有和類似for

程式碼如下:

測試程式碼 佔用記憶體
range(100) 2.0MB
range(10000) 2.2MB
range(100000) 3.8MB
range(1000000) 19.5MB
range(10000000) 168.5MB
range(100000000) 1465.8MB

可以看到,隨著基數的加大,佔用記憶體呈幾何倍數增加,顯然在進行大迴圈操作的時候,要避免使用range。

為了解決上述問題,python提供了另外一個函式xrange,這個函式和range非常相似,但是佔用記憶體比range會小很多,相關的說明可以檢視這裡,經過測試,用xrange產生的物件,不管引數是多少,佔用記憶體幾乎都沒有變化。問題又來了,xrange內部是如何實現的,為什麼和range效能相差這麼大?為了驗證我的猜想,先嚐試用python實現類似xrange的函式zrange:

程式碼如下:

#!/usr/bin/env python
class zrange(object):
def __init__(self,stop):
self.__pointer=0
self.stop=stop
def __iter__(self): 
return self 
def next(self): #python3.0中,改用__next__
if self.__pointer >= self.stop:
raise StopIteration
else:
self.__pointer = self.__pointer + 1
return self.__pointer-1
test = zrange(10000000)
for i in test:
print i

執行的結果和xrange一樣, 對zrange進行記憶體佔用測試,發現和xrange一樣,引數的大小對記憶體佔用幾乎沒有影響。那麼它和range的區別在哪裡呢?

前面說到,range產生的是一個列表,而無論是自定義的zrange還是系統內建的xrange產生的都是一個物件,像xrange或者zrange產生的物件,就叫做可迭代物件, 它給外部提供了一種遍歷其內部元素,而不用關心其內部實現的方法。上面zrange的實現中, 最關鍵的實現是建立了一個內部指標__pointer, 它記錄當前的訪問的位置, 下次的訪問就可以透過指標的狀態進行相應的操作。

Python或者其它語言中,還有很多類似透過迭代的方式訪問物件內容的,如讀取一個檔案中的內容:

程式碼如下:

#!/usr/bin/env python
f = open('zrange.py','r')
while True:
line = f.readline()
if not line:
break
print line.strip()
f.close()

大家都知道用readline要比reandlines節省資源,其實readline和readlines就類似於xrange和range,一個是透過指標記錄當前位置,下次訪問把指標往前移動一個單位,另外一個是直接把所有內容存放到記憶體當中。檔案操作函式中,還可以透過seek手動的調整指標的位置,從而達到跳過或者重複讀取某些內容的目的。

可以說,迭代器的實現中,其內部指標是節省資源,讓迭代正常執行的關鍵。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/151/viewspace-2837439/,如需轉載,請註明出處,否則將追究法律責任。

相關文章