Java虛擬機器 —— 垃圾回收機制

xiaoyanger發表於2017-09-22

在Java虛擬機器中,物件和陣列的記憶體都是在堆中分配的,垃圾收集器主要回收的記憶體就是再堆記憶體中。如果在Java程式執行過程中,動態建立的物件或者陣列沒有及時得到回收,持續積累,最終堆記憶體就會被佔滿,導致OOM。

JVM提供了一種垃圾回收機制,簡稱GC機制。通過GC機制,能夠在執行過程中將堆中的垃圾物件不斷回收,從而保證程式的正常執行。

垃圾物件的判定

我們都知道,所謂“垃圾”物件,就是指我們在程式的執行過程中不再有用的物件,即不再存活的物件。那麼怎麼來判斷堆中的物件是“垃圾”、不再存活的物件呢?

引用計數法

每個物件都有一個引用計數的屬性,用來儲存該物件被引用的次數。當引用次數為0時,就意味著該物件沒有被引用了,也就不會在使用這個物件了,可以判定為垃圾物件。但是,這種方式有一個很大的Bug,就是無法解決物件間相互引用或者迴圈引用的問題:當兩個物件相互引用,他們兩個和其他任何物件也沒有引用關係,它倆的引用次數都不為0,因此不會被回收,但實際上這兩個物件已經不再有用了。

可達性分析(根搜尋法)

為了避免使用引用計數法帶來的問題,Java採用了可達性分析法來判斷垃圾物件。

這種方式可以將所有物件的引用關係想象成一棵樹,從樹的根節點GC Root遍歷所有引用的物件,樹的節點就為可達物件,其他沒有處於節點的物件則為不可達物件。


那麼什麼樣的物件可以作為GC的根節點呢?

  • 虛擬機器棧(幀棧中的本地變數表)中引用的物件
  • 方法區中靜態屬性引用的物件
  • 方法區中常量引用的物件
  • 本地方法棧中JNI引用的物件

引用狀態

垃圾回收機制,不管採用是引用計數法,還是可達性分析法,都與物件的引用有關,Java中存在四種引用狀態:

  • 強引用 - 我們使用的大部分引用實際上都是強引用,這是使用最普遍的引用。如果一個物件具有強引用,就表示它處於可達狀態,垃圾回收器絕不會回收它,即便系統記憶體非常緊張,Java虛擬機器寧願丟擲OutOfMemoryError錯誤,使程式異常終止,也不會回收被強引用所引用的物件。因此,強引用是造成Java記憶體洩露的主要原因之一。

  • 軟引用 - 一個物件只具有軟引用,如果記憶體空間足夠,垃圾回收器就不會回收它,如果記憶體空間不足了,就會回收這些物件的記憶體。只要垃圾回收器沒有回收它,該物件就可以被程式使用。

  • 弱引用 - 一個物件只具有弱引用,那就類似於是可有可無的。弱引用和軟引用很像,但弱引用的引用級別更低。弱引用與軟引用的區別在於:只具有弱引用的物件擁有更短暫的生命週期。在垃圾回收器執行緒掃描它所管轄的記憶體區域的過程中,一旦發現了只具有弱引用的物件,不管當前記憶體空間足夠與否,都會回收它的記憶體。

  • 虛引用 - 一個物件僅持有虛引用,那麼它就和沒有任何引用一樣,在任何時候都可能被垃圾回收器回收。虛引用主要用來跟蹤物件被垃圾回收的活動,我們平常一般不會使用。

垃圾回收演算法

通過可達性分析演算法能夠判定哪些物件是需要回收的了,那麼回收具體需要怎樣去執行呢?

標記-清除演算法

首先需要標記可以回收的物件記憶體,然後在對回收的記憶體進行清除。

標記-清除演算法(回收前)
標記-清除演算法(回收前)

標記-清除演算法(回收後)
標記-清除演算法(回收後)

但是這樣的話,隨著程式的執行,會不斷分配釋放記憶體,在堆中會產生很多的不連續的空閒記憶體區,即記憶體碎片。這樣即使有足夠多的空閒記憶體,也不一定能分配出足夠大的記憶體,並且可能會造成頻繁的GC,影響效率,甚至OOM。

標記-整理演算法

和標記-清除演算法不同的是,標記-整理演算法在標記後不直接清理可回收記憶體,而是將存活物件都移動到一端,然後清除掉可回收記憶體。

標記-整理演算法(回收前)
標記-整理演算法(回收前)

標記-整理演算法(回收後)
標記-整理演算法(回收後)

這樣做的好處就是不會產生記憶體碎片。

複製演算法

複製演算法需要先將記憶體分為兩塊,先在其中一塊記憶體上分配記憶體,當這塊記憶體被分配完後,則執行垃圾回收,然後把存活物件全部複製到另一塊記憶體上,第一塊記憶體則全部清空。

複製演算法(回收前)
複製演算法(回收前)

複製演算法(回收後)
複製演算法(回收後)

這種演算法不會產生記憶體碎片,但是相當於只能使用一半的記憶體空間。同時,複製演算法和存活物件的數量有關,如果存活物件的數量多,那麼複製演算法的效率會大大降低。

分代收集演算法

在Java虛擬機器中,物件的生命週期有長有短,大部分物件的生命週期很短,只有少部分的物件才會在記憶體中存留較長時間,因此可以依據物件生命週期的長短將它們放在不同的區域。在採用分代收集演算法的Java虛擬機器堆中,一般分為三個區域,用來分別儲存這三類物件:

  • 新生代 - 剛建立的物件,在程式碼執行時一般都會持續不斷地建立新的物件,這些新建立的物件有很多是區域性變數,很快就會變成垃圾物件。這些物件被放在一塊稱為新生代的記憶體區域。新生代的特點是垃圾物件多,存活物件少。

  • 老年代 - 一些物件很早被建立了,經歷了多次GC也沒有被回收,而是一直存活下來。這些物件被放在一塊稱為老年代的區域。老年代的特點是存活物件多,垃圾物件少。

  • 永久代 - 一些伴隨虛擬機器生命週期永久存在的物件,比如一些靜態物件,常量等。這些物件被放在一塊稱為永久代的區域。永久代的特點是這些物件一般不需要垃圾回收,會在虛擬機器執行過程中一直存活。(在Java1.7之前,方法區中儲存的是永久代物件,Java1.7方法區的永久代物件移到了堆中,而在Java1.8永久代已經從堆中移除了,這塊記憶體給了元空間。)

分代收集演算法也就根據新生代和老年代來進行垃圾回收的。

對於新生代區域,每次GC都會有很多垃圾物件被回收,只有少量存活。因此採用複製回收演算法,GC時把剩餘很少的存活物件複製過去即可。

在新生代區域中,並不是按照1:1的比例來進行復制回收,而是按照8:1:1的比例分為了Eden、SurvivorA、SurvivorB三個區域。其中Eden意為伊甸園,形容有很多新生物件在裡面建立;Survivor區則為倖存者,即經歷GC後仍然存活下來的物件。

  1. Eden區對外提供堆記憶體。當Eden區快要滿了,則進行Minor GC(新生代GC),把存活物件放入SurvivorA區,清空Eden區;
  2. Eden區被清空後,繼續對外提供堆記憶體;
  3. 當Eden區再次被填滿,此時對Eden區和SurvivorA區同時進行Minor GC(新生代GC),把存活物件放入SurvivorB區,此時同時清空Eden區和SurvivorA區;
  4. Eden區繼續對外提供堆記憶體,並重覆上述過程,即在 Eden 區填滿後,把Eden區和某個Survivor區的存活物件放到另一個Survivor區;
  5. 當某個Survivor區被填滿,且仍有物件未被複制完畢時,或者某些物件在反覆Survive 15次左右時,則把這部分剩餘物件放到老年代區域;當老年區也被填滿時,進行Major GC(老年代GC),對老年代區域進行垃圾回收。

老年代區域物件一般存活週期較長,每次GC時,存活的物件比較多,因此採用標記-整理演算法,GC時移動少量存活物件,不會產生記憶體碎片。

觸發GC的型別

Java虛擬機器會把每次觸發GC的資訊列印出來,可以根據日誌來分析觸發GC的原因。

  • GC_FOR_MALLOC:表示是在堆上分配物件時記憶體不足觸發的GC。
  • GC_CONCURRENT:當我們應用程式的堆記憶體達到一定量,或者可以理解為快要滿的時候,系統會自動觸發GC操作來釋放記憶體。
  • GC_EXPLICIT:表示是應用程式呼叫System.gc、VMRuntime.gc介面或者收到SIGUSR1訊號時觸發的GC。
  • GC_BEFORE_OOM:表示是在準備拋OOM異常之前進行的最後努力而觸發的GC。

參考:

Java記憶體回收機制--Java引用的種類(強引用、弱引用、軟引用、虛引用)
理解Java垃圾回收機制
Java 技術之垃圾回收機制

相關文章