詳解Python中yield生成器的用法

張博208發表於2017-02-19

http://blog.csdn.net/hello_katty/article/details/47310843


yield是生成的意思,但是在python中則是作為生成器理解,生成器的用處主要可以迭代,這樣簡化了很多運算模型(還不是很瞭解是如何簡化的)。

yield是一個表示式,是有返回值的.

當一個函式中含有yield時,它不再是一個普通的函式,而是一個生成器.當該函式被呼叫時不會自動執行,而是暫停,

參考:http://www.aichengxu.com/view/64610 

見第一個例子:

例1:

[py] view plain copy
  1. >>> def mygenerator():  
  2. ...  print 'start...'  
  3. ...  yield 5  
  4. ...   
  5. >>> mygenerator()   //在此處呼叫,並沒有列印出start...說明存在yield的函式沒有被執行,即暫停  
  6. <generator object mygenerator at 0xb762502c>  
  7. >>> mygenerator().next()  //呼叫next()即可讓函式執行.  
  8. start...  
  9. 5  
  10. >>>  


如一個函式中出現多個yield則next()會停止在下一個yield前,見例2:

例2:

[py] view plain copy
  1. >>> def mygenerator():  
  2. ...  print 'start...'  
  3. ...  yield 5  
  4. ...   
  5. >>> mygenerator()   //在此處呼叫,並沒有列印出start...說明存在yield的函式沒有被執行,即暫停  
  6. <generator object mygenerator at 0xb762502c>  
  7. >>> mygenerator().next()  //呼叫next()即可讓函式執行.  
  8. start...  
  9. 5  
  10. >>>  


為什麼yield 5會輸出5,yield 23會輸出23? 

我們猜測可能是因為yield是表示式,存在返回值.

那麼這是否可以認為yield 5的返回值一定是5嗎?實際上並不是這樣,這個與send函式存在一定的關係,這個函式實質上與next()是相似的,區別是send是傳遞yield表示式的值進去,而next不能傳遞特定的值,只能傳遞None進去,因此可以認為g.next()和g.send(None)是相同的。見例3:

例3:

[py] view plain copy
  1. >>> def fun():  
  2. ...  print 'start...'  
  3. ...  m = yield 5  
  4. ...  print m  
  5. ...  print 'middle...'  
  6. ...  d = yield 12  
  7. ...  print d  
  8. ...  print 'end...'  
  9. ...   
  10. >>> m = fun()    //建立一個物件  
  11. >>> m.next()    //會使函式執行到下一個yield前  
  12. start...  
  13. 5  
  14. >>> m.send('message')  //利用send()傳遞值  
  15. message     //send()傳遞進來的   
  16. middle...  
  17. 12  
  18. >>> m.next()  
  19. None      //可見next()返回值為空  
  20. end...  
  21. Traceback (most recent call last):  
  22.  File "<stdin>", line 1in <module>  
  23. StopIteration  


在multiprocess中的使用

python在處理資料的時候,memory-heavy 的資料往往會導致程式沒辦反執行或者執行期間伺服器其他程式效率受到影響。這種情況往往會把資料集合變為通過genertor來遍歷。

但同時如我們所知,generoter看似只能被單程式消費,這樣效率很低。

generator 可以被pool.map消費。

看一下pool.py的原始碼。

[py] view plain copy
  1. for i, task in enumerate(taskseq):  
  2.   ...  
  3.   try:  
  4.    put(task)  
  5.   except IOError:  
  6.    debug('could not put task on queue')  
  7.    break  


實際是先將generator全部消費掉放到queue中。然後通過map來並行。這樣是解決了使用map來並行。

但是依然沒有解決佔用記憶體的問題。這裡有兩步佔用記憶體。

第一步是全部消費掉的generator。

第二步並行運算全部data。

解決第一個問題,通過部分消費generator來達到。

解決第二個問題,可以通過imap來達到.

示例程式碼如下:

[py] view plain copy
  1. import multiprocessing as mp  
  2. import itertools  
  3. import time  
  4.   
  5. def g():  
  6.  for el in xrange(50):  
  7.   print el  
  8.   yield el  
  9.   
  10. import os  
  11.   
  12. def f(x):  
  13.  time.sleep(1)  
  14.  print str(os.getpid()) +" "+ str(x)  
  15.  return x * x  
  16.   
  17. if __name__ == '__main__':  
  18.  pool = mp.Pool(processes=4)    # start 4 worker processes  
  19.  go = g()  
  20.  result = []  
  21.  N = 11  
  22.  while True:  
  23.   g2 = pool.imap(f, itertools.islice(go, N))  
  24.   if g2:  
  25.    for i in g2:  
  26.     result.append(i)  
  27.     time.sleep(1)  
  28.   else:  
  29.    break  
  30.  print(result)  


ps: 使用注意事項。在produce資料的時候,儘量少做操作,應為即使是map也是單執行緒的來消費資料。所以儘量把操作放到map中作。這樣才能更好的利用多程式提高效率。 

Python學習教程中心: http://www.aichengxu.com/item/15 


相關文章