詳解Python垃圾回收機制

pythontab發表於2016-02-23

引用計數

Python預設的垃圾收集機制是“引用計數”,每個物件維護了一個ob_ref欄位。它的優點是機制簡單,當新的引用指向該物件時,引用計數加1,當一個物件的引用被銷燬時減1,一旦物件的引用計數為0,該物件立即被回收,所佔用的記憶體將被釋放。它的缺點是需要額外的空間維護引用計數,不過最主要的問題是它不能解決“迴圈引用”。


什麼是迴圈引用?A和B相互引用而再沒有外部引用A與B中的任何一個,它們的引用計數雖然都為1,但顯然應該被回收,例子:

  a = { } # a 的引用為 1
  b = { } # b 的引用為 1
  a['b'] = b # b 的引用增 1,b的引用為2
  b['a'] = a # a 的引用增 1,a的引用為 2
  del a # a 的引用減 1,a的引用為 1
  del b # b 的引用減 1, b的引用為 1

在這個例子中,del語句減少了 a 和 b 的引用計數並刪除了用於引用的變數名,可是由於兩個物件各包含一個對方物件的引用,雖然最後兩個物件都無法透過名字訪問了,但引用計數並沒有減少到零。因此這個物件不會被銷燬,它會一直駐留在記憶體中,這就造成了記憶體洩漏。為了解決迴圈引用問題,Python引入了標記-清除和分代回收兩種GC機制。

標記清除

標記——清除(Mark——Sweep)是一種基於追蹤(Tracing)回收技術實現的垃圾回收演算法,物件之間透過引用(指標)連在一起,構成一個有向圖,物件構成這個有向圖的節點,而引用關係構成這個有向圖的邊。從根物件(root object)出發,沿著有向邊遍歷物件,可達的物件標記為有用的物件,不可達的物件就是要被清除的物件。所謂根物件就是一些全域性引用物件和函式棧中的引用,這些引用所引用的物件是不可被刪除的。


標記清除演算法作為Python的輔助垃圾收集技術主要處理的是一些容器物件,比如list、dict、tuple,instance等,因為對於字串、數值物件是不可能造成迴圈引用問題。Python使用一個雙向連結串列將這些容器物件組織起來。

分代回收

分代回收是一種以空間換時間的操作方式,Python將記憶體根據物件的存活時間劃分為不同的集合,每個集合稱為一個代,Python將記憶體分為了3“代”,分別為年輕代(第0代)、中年代(第1代)、老年代(第2代),他們對應的是3個連結串列,它們的垃圾收集頻率與物件的存活時間的增大而減小。新建立的物件都會分配在年輕代,年輕代連結串列的總數達到上限時,Python垃圾收集機制就會被觸發,把那些可以被回收的物件回收掉,而那些不會回收的物件就會被移到中年代去,依此類推,老年代中的物件是存活時間最久的物件,甚至是存活於整個系統的生命週期內。同時,分代回收是建立在標記清除技術基礎之上。


分代回收同樣作為Python的輔助垃圾收集技術處理那些容器物件


相關文章