提高你的Python: 解釋 yield 和 Generators(生成器)

發表於2017-04-10

在開始課程之前,我要求學生們填寫一份調查表,這個調查表反映了它們對Python中一些概念的理解情況。一些話題(“if/else控制流” 或者 “定義和使用函式”)對於大多數學生是沒有問題的。但是有一些話題,大多數學生只有很少,或者完全沒有任何接觸,尤其是“生成器和yield關鍵字”。我猜這對大多數新手Python程式設計師也是如此。

有事實表明,在我花了大功夫後,有些人仍然不能理解生成器和yield關鍵字。我想讓這個問題有所改善。在這篇文章中,我將解釋yield關鍵字到底是什麼,為什麼它是有用的,以及如何來使用它。

注意:最近幾年,生成器的功能變得越來越強大,它已經被加入到了PEP。在我的下一篇文章中,我會通過協程(coroutine),協同式多工處理(cooperative multitasking),以及非同步IO(asynchronous I/O)(尤其是GvR正在研究的 “tulip” 原型的實現)來介紹yield的真正威力。但是在此之前,我們要對生成器和yield有一個紮實的理解.

協程與子例程

我們呼叫一個普通的Python函式時,一般是從函式的第一行程式碼開始執行,結束於return語句、異常或者函式結束(可以看作隱式的返回None)。一旦函式將控制權交還給呼叫者,就意味著全部結束。函式中做的所有工作以及儲存在區域性變數中的資料都將丟失。再次呼叫這個函式時,一切都將從頭建立。

對於在計算機程式設計中所討論的函式,這是很標準的流程。這樣的函式只能返回一個值,不過,有時可以建立能產生一個序列的函式還是有幫助的。要做到這一點,這種函式需要能夠“儲存自己的工作”。

我說過,能夠“產生一個序列”是因為我們的函式並沒有像通常意義那樣返回。return隱含的意思是函式正將執行程式碼的控制權返回給函式被呼叫的地方。而”yield”的隱含意思是控制權的轉移是臨時和自願的,我們的函式將來還會收回控制權。

在Python中,擁有這種能力的“函式”被稱為生成器,它非常的有用。生成器(以及yield語句)最初的引入是為了讓程式設計師可以更簡單的編寫用來產生值的序列的程式碼。 以前,要實現類似隨機數生成器的東西,需要實現一個類或者一個模組,在生成資料的同時保持對每次呼叫之間狀態的跟蹤。引入生成器之後,這變得非常簡單。

為了更好的理解生成器所解決的問題,讓我們來看一個例子。在瞭解這個例子的過程中,請始終記住我們需要解決的問題:生成值的序列。

注意:在Python之外,最簡單的生成器應該是被稱為協程(coroutines)的東西。在本文中,我將使用這個術語。請記住,在Python的概念中,這裡提到的協程就是生成器。Python正式的術語是生成器;協程只是便於討論,在語言層面並沒有正式定義。

例子:有趣的素數

假設你的老闆讓你寫一個函式,輸入引數是一個int的list,返回一個可以迭代的包含素數1 的結果。

記住,迭代器(Iterable) 只是物件每次返回特定成員的一種能力。

你肯定認為”這很簡單”,然後很快寫出下面的程式碼:

上面 is_prime 的實現完全滿足了需求,所以我們告訴老闆已經搞定了。她反饋說我們的函式工作正常,正是她想要的。

處理無限序列

噢,真是如此嗎?過了幾天,老闆過來告訴我們她遇到了一些小問題:她打算把我們的get_primes函式用於一個很大的包含數字的list。實際上,這個list非常大,僅僅是建立這個list就會用完系統的所有記憶體。為此,她希望能夠在呼叫get_primes函式時帶上一個start引數,返回所有大於這個引數的素數(也許她要解決 Project Euler problem 10)。

我們來看看這個新需求,很明顯只是簡單的修改get_primes是不可能的。 自然,我們不可能返回包含從start到無窮的所有的素數的列表 (雖然有很多有用的應用程式可以用來操作無限序列)。看上去用普通函式處理這個問題的可能性比較渺茫。

在我們放棄之前,讓我們確定一下最核心的障礙,是什麼阻止我們編寫滿足老闆新需求的函式。通過思考,我們得到這樣的結論:函式只有一次返回結果的機會,因而必須一次返回所有的結果。得出這樣的結論似乎毫無意義;“函式不就是這樣工作的麼”,通常我們都這麼認為的。可是,不學不成,不問不知,“如果它們並非如此呢?”

想象一下,如果get_primes可以只是簡單返回下一個值,而不是一次返回全部的值,我們能做什麼?我們就不再需要建立列表。沒有列表,就沒有記憶體的問題。由於老闆告訴我們的是,她只需要遍歷結果,她不會知道我們實現上的區別。

不幸的是,這樣做看上去似乎不太可能。即使是我們有神奇的函式,可以讓我們從n遍歷到無限大,我們也會在返回第一個值之後卡住:

假設這樣去呼叫get_primes:

顯然,在get_primes中,一上來就會碰到輸入等於3的,並且在函式的第4行返回。與直接返回不同,我們需要的是在退出時可以為下一次請求準備一個值。

不過函式做不到這一點。當函式返回時,意味著全部完成。我們保證函式可以再次被呼叫,但是我們沒法保證說,“呃,這次從上次退出時的第4行開始執行,而不是常規的從第一行開始”。函式只有一個單一的入口:函式的第1行程式碼。

走進生成器

這類問題極其常見以至於Python專門加入了一個結構來解決它:生成器。一個生成器會“生成”值。建立一個生成器幾乎和生成器函式的原理一樣簡單。

一個生成器函式的定義很像一個普通的函式,除了當它要生成一個值的時候,使用yield關鍵字而不是return。如果一個def的主體包含yield,這個函式會自動變成一個生成器(即使它包含一個return)。除了以上內容,建立一個生成器沒有什麼多餘步驟了。

生成器函式返回生成器的迭代器。這可能是你最後一次見到“生成器的迭代器”這個術語了, 因為它們通常就被稱作“生成器”。要注意的是生成器就是一類特殊的迭代器。作為一個迭代器,生成器必須要定義一些方法(method),其中一個就是__next__()。如同迭代器一樣,我們可以使用next()函式來獲取下一個值。

為了從生成器獲取下一個值,我們使用next()函式,就像對付迭代器一樣。

(next()會操心如何呼叫生成器的__next__()方法)。既然生成器是一個迭代器,它可以被用在for迴圈中。

每當生成器被呼叫的時候,它會返回一個值給呼叫者。在生成器內部使用yield來完成這個動作(例如yield 7)。為了記住yield到底幹了什麼,最簡單的方法是把它當作專門給生成器函式用的特殊的return(加上點小魔法)。**

yield就是專門給生成器用的return(加上點小魔法)。

下面是一個簡單的生成器函式:

這裡有兩個簡單的方法來使用它:

魔法?

那麼神奇的部分在哪裡?我很高興你問了這個問題!當一個生成器函式呼叫yield,生成器函式的“狀態”會被凍結,所有的變數的值會被保留下來,下一行要執行的程式碼的位置也會被記錄,直到再次呼叫next()。一旦next()再次被呼叫,生成器函式會從它上次離開的地方開始。如果永遠不呼叫next(),yield儲存的狀態就被無視了。

我們來重寫get_primes()函式,這次我們把它寫作一個生成器。注意我們不再需要magical_infinite_range函式了。使用一個簡單的while迴圈,我們創造了自己的無窮串列。

如果生成器函式呼叫了return,或者執行到函式的末尾,會出現一個StopIteration異常。 這會通知next()的呼叫者這個生成器沒有下一個值了(這就是普通迭代器的行為)。這也是這個while迴圈在我們的get_primes()函式出現的原因。如果沒有這個while,當我們第二次呼叫next()的時候,生成器函式會執行到函式末尾,觸發StopIteration異常。一旦生成器的值用完了,再呼叫next()就會出現錯誤,所以你只能將每個生成器的使用一次。下面的程式碼是錯誤的:

因此,這個while迴圈是用來確保生成器函式永遠也不會執行到函式末尾的。只要呼叫next()這個生成器就會生成一個值。這是一個處理無窮序列的常見方法(這類生成器也是很常見的)。

執行流程

讓我們回到呼叫get_primes的地方:solve_number_10。

我們來看一下solve_number_10的for迴圈中對get_primes的呼叫,觀察一下前幾個元素是如何建立的有助於我們的理解。當for迴圈從get_primes請求第一個值時,我們進入get_primes,這時與進入普通函式沒有區別。

  1. 進入第三行的while迴圈
  2. 停在if條件判斷(3是素數)
  3. 通過yield將3和執行控制權返回給solve_number_10

接下來,回到insolve_number_10:

  1. for迴圈得到返回值3
  2. for迴圈將其賦給next_prime
  3. total加上next_prime
  4. for迴圈從get_primes請求下一個值

這次,進入get_primes時並沒有從開頭執行,我們從第5行繼續執行,也就是上次離開的地方。

最關鍵的是,number還保持我們上次呼叫yield時的值(例如3)。記住,yield會將值傳給next()的呼叫方,同時還會儲存生成器函式的“狀態”。接下來,number加到4,回到while迴圈的開始處,然後繼續增加直到得到下一個素數(5)。我們再一次把number的值通過yield返回給solve_number_10的for迴圈。這個週期會一直執行,直到for迴圈結束(得到的素數大於2,000,000)。

更給力點

PEP 342中加入了將值傳給生成器的支援。PEP 342加入了新的特性,能讓生成器在單一語句中實現,生成一個值(像從前一樣),接受一個值,或同時生成一個值並接受一個值。

我們用前面那個關於素數的函式來展示如何將一個值傳給生成器。這一次,我們不再簡單地生成比某個數大的素數,而是找出比某個數的等比級數大的最小素數(例如10, 我們要生成比10,100,1000,10000 … 大的最小素數)。我們從get_primes開始:

get_primes的後幾行需要著重解釋。yield關鍵字返回number的值,而像 other = yield foo 這樣的語句的意思是,”返回foo的值,這個值返回給呼叫者的同時,將other的值也設定為那個值”。你可以通過send方法來將一個值”傳送“給生成器。

通過這種方式,我們可以在每次執行yield的時候為number設定不同的值。現在我們可以補齊print_successive_primes中缺少的那部分程式碼:

這裡有兩點需要注意:首先,我們列印的是generator.send的結果,這是沒問題的,因為send在傳送資料給生成器的同時還返回生成器通過yield生成的值(就如同生成器中yield語句做的那樣)。

第二點,看一下prime_generator.send(None)這一行,當你用send來“啟動”一個生成器時(就是從生成器函式的第一行程式碼執行到第一個yield語句的位置),你必須傳送None。這不難理解,根據剛才的描述,生成器還沒有走到第一個yield語句,如果我們發生一個真實的值,這時是沒有人去“接收”它的。一旦生成器啟動了,我們就可以像上面那樣傳送資料了。

綜述

在本系列文章的後半部分,我們將討論一些yield的高階用法及其效果。yield已經成為Python最強大的關鍵字之一。現在我們已經對yield是如何工作的有了充分的理解,我們已經有了必要的知識,可以去了解yield的一些更“費解”的應用場景。

不管你信不信,我們其實只是揭開了yield強大能力的一角。例如,send確實如前面說的那樣工作,但是在像我們的例子這樣,只是生成簡單的序列的場景下,send幾乎從來不會被用到。下面我貼一段程式碼,展示send通常的使用方式。對於這段程式碼如何工作以及為何可以這樣工作,在此我並不打算多說,它將作為第二部分很不錯的熱身。

請謹記……

我希望您可以從本文的討論中獲得一些關鍵的思想:

  • generator是用來產生一系列值的
  • yield則像是generator函式的返回結果
  • yield唯一所做的另一件事就是儲存一個generator函式的狀態
  • generator就是一個特殊型別的迭代器(iterator)
  • 和迭代器相似,我們可以通過使用next()來從generator中獲取下一個值
  • 通過隱式地呼叫next()來忽略一些值

我希望這篇文章是有益的。如果您還從來沒有聽說過generator,我希望現在您可以理解它是什麼以及它為什麼是有用的,並且理解如何使用它。如果您已經在某種程度上比較熟悉generator,我希望這篇文章現在可以讓您掃清對generator的一些困惑。

同往常一樣,如果某一節的內容不是很明確(或者某節內容更重要,亦或某些內容包含錯誤),請盡一切辦法讓我知曉。您可以在下面留下您的評論、給jeff@jeffknupp.com傳送電子郵件或在Twitter中@jeffknupp。

相關文章