Python mutilprocessing Processing 父子程式共享檔案物件?

發表於2017-02-15

multiprocessing python多程式模組, 於是, Processing也是多程式的寵兒. 但今天討論的問題, 似乎也能引起我們一番重視

直接上程式碼:

上面的程式碼意圖很清晰: 通過multiprocessing.Process派生一個程式, 去執行put函式, put函式的作用也是很清楚, 輸出PUT和END, 並且將”hello, func put write” 寫到檔案error1.log中.

那麼按理說, 輸出應該如同上面說的那樣, PUT和END,然後error1.log將有那句話”hello, func put write”, 然而, 世事總有那麼點難料的, 程式碼執行結果是:

what!? 為什麼error1.log沒東西 !?

讓我們稍微調整下程式碼, 再見證神奇的事情:

輸出結果:

有沒有覺得一種懵逼的感覺!?

如今, 心中湧現兩個問題:

  1. 為什麼第一個程式無法寫入那句話 , 但是第二個卻可以?
  2. 那個4075是什麼鬼?

在解釋這些問題之前, 我們需要清楚標準IO庫所具有的特點: 全緩衝, 行緩衝, 不緩衝

具體可以看之前博文:https://my.oschina.net/u/2291453/blog/806102

因為現在是寫入檔案, 所以系統IO將採用全緩衝的方式, 也就是說, 會將緩衝區填滿才刷入系統寫佇列.

所以上面的問題就一下子全解決了, 正因為那些 迷一般的 ‘o’,填滿了整個緩衝區, 所以系統將我們的內容刷進去寫佇列,所以4075怎麼來, 就是用4096-sizeof(“hello, func put writen”)+1, 為什麼要+1, 因為緩衝區滿還不行, 要大於才能觸發寫動作.

所以我們現在已經能夠得出答案, 如果我們想要在multiprcessing.Process中, 用上面類似的方式去寫檔案時,有三種方法去實現:

  1. 寫滿緩衝區
  2. 手動呼叫flush()
  3. 將檔案物件設定成不緩衝

第一第二種在上面已經闡述, 那我們簡單講下第三種:

上圖說明就是, 允許我們在open的時候, 設定buffering為0, 那麼就是unbuffered模式, 那麼在每次寫, 就是直接寫入寫佇列,而不是寫到緩衝區.(效能最低的方式)

————————————————我是切割線———————————————-

談論完現象和處理的方法, 我們應該來點深入的;

相信我們曾經試過, 在沒有顯示關閉檔案物件或者顯示呼叫flush時, 檔案依舊能夠正常寫入,那麼又是怎麼一回事呢?

其實,在我們正常關閉程式時, 程式在退出將會為我們做一些”手尾”, 例如關閉開啟的檔案描述符, 清理臨時檔案,清理記憶體等等.正是因為系統的這種”好習慣”, 所以我們的資料在檔案描述符關閉時,就能刷入寫佇列,檔案內容也不會丟失.

那麼基於這種認識,我們再回首剛才的問題, 在子程式呼叫put的時候, 理論上在程式退出時, 並沒顯示關閉檔案描述符, 所以資料在緩衝區就丟失了.

讓我們在順藤摸瓜,看Process的實現

再看下Popn是怎麼做?

關鍵地方就是最後的 os._exit(code), 為什麼說最關鍵? 因為這部分的退出, 將決定程式會處理什麼”手尾”,

os._exit是什麼鬼?  其實就是標準庫的_eixt, 於是我們又能簡單學習這東西了

https://my.oschina.net/u/2291453/blog/813259

在上面的連結, 我們能夠比較清楚看到 _exit() 和exit() 是比較不同的兩個東西, _exit()  簡單暴力, 直接丟棄使用者態的內容,進入核心, 而exit()則比較耐心地為我們清理

那麼我們是否能夠假設: 如果Popen的退出不是os._exit() 會是怎樣的效果呢?

很幸運的是, sys.exit() 就是我們先要的exit(), 事不宜遲, 趕緊試下!

測試程式碼, 返回最原始那個沒有’o’填充的版本

我們可以看到, 確實是可以寫進去, 這樣就證明上面的說法是站得住腳步的

不過最好還是不要亂改原始碼哦, 畢竟這些都是老前輩多年優化的結果,可能這是他們故意這些寫,為了避免某些問題.還是規範好自己的行為,儘量減少這些看起來不怎麼規範的實現思路吧

相關文章