深入理解Java虛擬機器-垃圾收集器與記憶體分配策略

Tongson發表於2018-04-09

概述

垃圾收集(Garbage Collection,GC)

GC需要完成的三件事:

  • 哪些記憶體需要回收?

  • 什麼時候回收?

  • 如何回收?

記憶體執行時區域其中的程式計數器、虛擬機器棧、本地方法棧三個區域隨執行緒而生,隨執行緒而滅;棧中的棧幀隨著方法的進入和退出而有條不紊地執行著出棧和入棧的操作。每個棧幀中分配多少記憶體基本上是在類結構確定下來時就已知的,因此這幾個區域的記憶體分配和回收都具備確定性,在這幾個區域內不需要過多考慮回收的問題,因為方法結束或執行緒結束時,記憶體自然就跟隨著系統回收了。

Java堆和方法區則不一樣,一個介面中的多個實現類需要的記憶體可能不一樣,一個方法中的多個分支需要的記憶體也可能不一樣,我們只有在程式處於執行期間時才能知道會建立哪些物件,這部分記憶體的分配和回收都是動態的,垃圾收集器所關注的就是這部分記憶體。


物件已死?

Java堆中幾乎存放著Java世界中的所有物件例項,GC在對堆進行回收錢,第一件事情就是確定這些物件有哪些還“存活著”,哪些已經“死去”(就是不可能再被任何途徑適用的物件)。

如何判斷物件已死?

引用計數演算法

在物件中新增一個引用計數器,每當有一個地方引用它時,計數器就加1;當引用失效時,計數器減1;其中計數器為0的物件是不可能再被使用的已死物件。

引用計數演算法的實現很簡單,但有個巨大的缺點,當兩個物件相互引用時,這兩個物件就不會被回收,導致記憶體洩漏。

根搜尋演算法(GC Roots Tracing)

通過一系列的稱為GC Roots的物件作為起始點,從這些節點開始向下搜尋,搜尋所經過 的路徑稱為引用鏈(Reference Chain); 當一個物件到GC Roots沒有任何引用鏈相連(在圖論中稱為物件不可達)時,這個物件就是不可用的。

仍然存活的物件

判定可回收的物件

在java語言中,可作為GC Roots的物件包括:

  • 虛擬機器棧(棧幀中的本地變數表)中引用的物件
  • 方法區中類靜態屬性引用的物件
  • 方法區中常量引用的物件
  • 本地方法棧中JNI(即一般說的Native方法)引用的物件

再談引用

java的引用可以分為強引用(Strong Reference)、軟引用(Soft Reference)、弱引用(Weak Reference)、虛引用(Phantom Reference)

  • 強引用:是指在程式程式碼中直接存在的引用,譬如"Object obj=new Object();"。只要強引用還存在,垃圾收集器就永遠不會回收掉被引用的物件。

  • 軟引用:還有用但是並非必需的引用,在系統將要發生記憶體溢位異常之前會把這些物件列進回收範圍中進行二次回收,若還是沒有足夠的記憶體,才會丟擲記憶體溢位異常。

  • 弱引用:非必需的物件,只能生存到下一次垃圾收集發生之前。當垃圾收集器工作時,無論記憶體是否夠用都將回收這些物件。

  • 虛引用:一個物件是否有虛引用的存在完全不會對他的生存時間構成影響,也無法通過虛引用來取得一個物件例項。為一個物件設定虛引用關聯的唯一目的就是希望能在這個物件被收集器回收時收到一個系統通知。

生存還是死亡(宣告一個物件死亡的過程)

要真正宣告一個物件死亡,至少要經歷兩次標記過程:

  • 若物件在進行可達性分析後發現沒有與GC Roots相連線的引用鏈,會被第一次標記 並且進行一次篩選。篩選的條件是此物件是否有必要執行finalize()方法(如當物件沒有重寫finalize()方法或者finalize()方法已經被虛擬機器呼叫過則認為沒有必要執行)。

  • 如果有必要執行則將該物件放置在F-Queue佇列中,並在稍後由一個由虛擬機器自己建立的、低優先順序的Finalizer執行緒去執行它;稍後GC將對F-Queue中的物件進行第二次標記,如果物件還是沒有被引用,則會被回收。

但是不建議通過finalize()方法“拯救”物件,因為它執行代價高、不確定性大、無法保證各個物件的呼叫順序。

回收方法區

很多人認為方法區(HotSopt中的永久代)是沒有垃圾收集的,java虛擬機器規範中也沒有要求需要對方法區實現垃圾收集。

永久代(方法區)的垃圾收集主要回收兩部分內容:廢棄常量和無用的類

*廢棄常量:假如一個字串“abc”已經進入了常量池中,但是當前系統沒有任何一個String物件是叫 做“abc”的,換句話說,就是沒有任何String物件引用常量池中的“abc”常量,也沒有其他地方引用了這個字面量,如果這時發生記憶體回收,而且必要的話,這個“abc”常量就會被系統清理出常量池。

  • 無用的類:同時滿足下面3個條件的類(例項、類載入器被回收,java.lang.Class物件沒有被引用)。

1.該類所有的例項都已經被回收,也就是Java堆中不存在該類的任何例項。

2.載入該類的ClassLoader已經被回收。

3.該類對應的java.lang.Class物件沒有在任何地方被引用,無法在任何地方通過反射訪問該類的方法。


垃圾收集演算法

標記-清除演算法(最基礎)

演算法分為兩個階段:標記和清除

標記:首先標記所有需要回收的物件

清除:在標記完成後統一回收所有被標記的物件

缺點

  • 效率問題,標記和清除兩個過程的效率都不高(回收後空間碎片過多,再次回收(即可達性分析時)有時需要遍歷整個記憶體區域)。
  • 空間問題,標記清除之後會產生大量不連續的記憶體碎片,空間碎片太多可能會導致以後在程式執行過程中需要分配較大物件時,無法找到足夠的連續記憶體,而不得不提前觸發另一次垃圾收集動作。

複製演算法(新生代演算法)(Copying)

思路:將可用記憶體按容量分為兩個塊,每次只用其中之一。當這一塊記憶體用完之後,將還存活的物件複製到另一邊去,然後清除所有已經使用過的部分。

優點

  • 每次都是對整個半區進行記憶體回收,記憶體分配時也就不用考慮記憶體碎片等複雜情況,只要移動堆頂指標,按順序分配記憶體即可,實現簡單,執行高效。

缺點

  • 代價是將記憶體縮小為了原來的一半,未免太高了一點。

解決方法

  • 新生代中的物件98%是“朝生夕死”的,所以並不需要按照1:1的比例來劃分記憶體空間,而是將記憶體分為一塊較大的Eden空間和兩塊較小的Survivor空間,每次使用Eden和其中一塊Survivor。
  • 在HotSpot裡,考慮到大部分物件存活時間很短將記憶體分為Eden和兩塊Survivor,預設比例為8:1:1。代價是存在部分記憶體空間浪費,適合在新生代使用。

標記-整理演算法(老年代演算法)(Mark-Compact)

標記過程仍然與“標記-清除”演算法一樣,但後續步驟不是直接對可回收物件進行清理,而是讓所有存活的物件都向一端移動,然後直接清理掉端邊界以外的記憶體。

分代收集演算法

  • 當前商用虛擬機器都採用了這種演算法,根據物件的存活週期將記憶體劃分為幾塊,一般是把Java堆分為新生代和老生代,根據各個年代採用適當的收集演算法
  • 新生代一般採用複製演算法(Copying)。
  • 老生代一般採用標記-清理(Mark-Sweep)或者標記-整理(Mark-Compact) 進行回收。

垃圾收集器

如果說收集演算法是記憶體回收的方法論,那麼垃圾收集器就是記憶體回收的具體實現。

不同的收集器應用的區域不同,到現在為止沒有最好的收集器,也沒有萬能的收集器。

Serial收集器

Serail 收集器是單執行緒的,他在進行垃圾收集時必須暫停其他的所有執行緒,直到收集結束。

隨著收集器的發展,使用者執行緒的停頓時間越來越短,但任然無法消除。

Serial收集器是虛擬機器執行在Client模式下預設的新生代收集器。

對於單個CPU壞境來說,Serial收集器由於沒有執行緒互動的開銷,專心做垃圾收集,可以獲得很高的單執行緒收集效率。

ParNew收集器

ParNew收集器是Serial收集器的多執行緒版本(控制引數、收集演算法、Stop The World、物件分配規則、回收策略等都與Serial收集器完全一樣。)

ParNew收集器是執行在Server模式下虛擬機器中首選的新生代收集器。

在垃圾收集器中併發與並行的概念:

  • 並行:多條垃圾收集執行緒並行工作,但此時使用者執行緒仍然處於等待狀態。

  • 併發:使用者執行緒與垃圾收集執行緒同時執行(但不一定是並行的,可能會交替執行),使用者程式在繼續執行,而垃圾收集程式執行在另一個CPU上。

Parallel Scavenge收集器

新生代收集器,使用複製演算法並行的多執行緒收集器

與其他收集器關注於盡可能縮短垃圾收集時使用者執行緒停頓時間不同,它的目標是達到一個可控制的吞吐量

吞吐量就是CPU用於執行使用者程式碼的時間與CPU總消耗時間的比值,即吞吐量=執行使用者程式碼時間/(執行使用者程式碼時間+垃圾收集時間),虛擬機器總共執行了100分鐘,其中垃圾收集花掉1分鐘,那吞吐量就是99%。

高吞吐量可以高效的利用CPU時間,儘快得完成程式的運算任務,主要適合在後臺運算而不需要太多互動的任務。

GC停頓時間的縮短是以犧牲吞吐量和新生代空間來換取的。

Parallel Scavenge收集器也經常被稱為吞吐量優先收集器。

Parallel Scavenge收集器提供了兩個引數用於精確控制吞吐量。

控制最大垃圾收集停頓時間的-XX:MaxGCPauseMillis引數。

直接設定吞吐量大小的-XX:GCTimeRatio引數。

Serial Old 收集器

Serial Old是Serial收集器的老年代版本,它同樣是一個單執行緒收集器,使用“標記-整理”演算法。

Parallel Old 收集器

Parallel Old是Parallel Scavenge收集器的老年代版本,使用多執行緒和“標記-整理”演算法。

CMS收集器

CMS收集器是一種以獲取最短的回收停頓時間為目標的收集器。

CMS收集器基於標記-清楚演算法實現,分為四個步驟:初始標記、併發標記、重新標記、併發清除

步驟詳解

  • 初始標記:標記一下GC Roots能直接關聯到的物件,速度很快。
  • 併發標記:進行GC Roots Tracing。
  • 重新標記:是為了修正那些在併發標記期間因使用者程式繼續運作而導致標記產生變動的那一部分物件的標記記錄,在這一階段的停頓時間會比初始標記階段稍長一點。
  • 併發清除:(CMS concurrent sweep)。

G1收集器

G1收集器是一款面向服務端應用的垃圾收集器。

並行與併發

G1能充分利用多CPU、 多核環境下的硬體優勢,使用多個CPU(CPU或者CPU核心)來縮短Stop-The-World停頓的時間,部分其他收集器原本需要停頓Java執行緒執行的GC動作,G1收集器仍然可以通過併發的方式讓Java程式繼續執行。

分代收集

與其他收集器一樣,分代概念在G1中依然得以保留。 雖然G1可以不需要其他收集器配合就能獨立管理整個GC堆,但它能夠採用不同的方式去處理新建立的物件和已經存活了一段時間、 熬過多次GC的舊物件以獲取更好的收集效果。

空間整合

從整體上來看是基於“標記-整理”演算法實現的,在區域性上是基於複製演算法實現的,但無論如何,這兩種演算法都意味著G1運作期間不會產生記憶體空間碎片,收集後能提供規整的可用記憶體。

這種特性有利於程式長時間執行,分配大物件時不會因為無法找到連續記憶體空間而提前觸發下一次GC。

可預測的停頓

這是G1相對於CMS的另一大優勢,降低停頓時間是G1和CMS共同的關注點,但G1除了追求低停頓外,還能建立可預測的停頓時間模型,能讓使用者明確指定在一個長度為M毫秒的時間片段內,消耗在垃圾收集上的時間不得超過N毫秒,這幾乎已經是實時Java(RTSJ)的垃圾收集器的特徵了。

G1收集器將整個Java堆劃分為多個大小相等的獨立區域,雖然還保留有新生代和老生代的概念,但新生代和老生代不再是物理隔的了,他們是一部分Region的集合。

G1收集器可以有計劃地避免在整個Java堆中進行全區域的垃圾收集:跟蹤各個Region裡面的垃圾堆積的價值大小,在後臺維護一個優先列表,每次根據允許的收集時間,優先回收價值最大的Region。

在G1收集器中,使用Remembered Set來避免全堆掃描

G1收集器的運作大致可劃分為以下幾個步驟:

初始標記(Initial Marking)

僅僅只是標記一下GC Roots能直接關聯到的物件,並且修改TAMS(Next Top at Mark Start)的值,讓下一階段使用者程式併發執行時,能在正確可用的Region中建立新物件,這階段需要停頓執行緒,但耗時很短。

併發標記(Concurrent Marking)

從GC Root開始對堆中物件進行可達性分析,找出存活的物件,這階段耗時較長,但可與使用者程式併發執行。

最終標記(Final Marking)

為了修正在併發標記期間因使用者程式繼續運作而導致標記產生變動的那一部分標記記錄,虛擬機器將這段時間物件變化記錄線上Remembered Set Logs裡面,最終標記階段需要把Remembered Set Logs的資料合併到Remembered Set中,這階段需要停頓執行緒,但是可並行執行。

篩選回收(Live Data Counting and Evacuation)

首先對各個Region的回收價值和成本進行排序,根據使用者所期望的GC停頓時間來制定回收計劃

垃圾收集器引數總結


記憶體分配與回收策略

物件優先在新生代(eden)分配

大多數情況下,物件優先在新生代的Eden區分配。 當Eden區沒有足夠的空間時,虛擬機器將發起一次Minor GC。

Minor GC與Full GC的區別。

  • 新生代GC(Minor GC):非常頻繁,回收速度快。
  • 老年代GC(Full GC):經常會伴隨一次Minor GC,速度比較慢(10倍以上)。

大物件直接進入老年代

大物件是指需要大量連續的記憶體空間的Java物件,最典型的大物件就是那種很長的字串以及陣列。

虛擬機器提供了一個引數:PretenureSizeThreshold,大於這個引數的物件將直接在老年代分配。目的是避免在Eden區及兩個Survivor區之間發生大量的記憶體拷貝。

長期存活的物件將進入老年代

虛擬機器給每個物件定義了一個物件年齡計數器(Age),物件每經過一次Minor GC後仍然存活,且能被Survivor容納的話,年齡就 +1 ,當年齡增加到一定程度(預設為15歲),就會被晉升到老年代中,這個閾值可以通過引數 MaxTenuringThreshold 來設定。

動態物件年齡判定

如果在Survivor空間中相同年齡所有物件大小的總和大於Survivor空間的一半,年齡大於或等於該年齡的物件就可以直接進入老年代,無需等到MaxTenuringThreshold中要求的年齡。

空間分配擔保

為了更好的適應不同程式的記憶體狀況,物件年齡不是必須到達閾值才會進入老年代。 只要老年代的連續空間大於新生代物件總大小或者歷次晉升的平均大小就會進行Minor GC,否則將進行Full GC。

發生Minor GC前,虛擬機器會先檢查老年代最大可用連續空間是否大於新生代所有物件總空間,如果不成立,虛擬機器會檢視HandlePromotionFailure設定值是否允許擔保失敗,如果允許繼續檢查老年代最大可用的連續空間是否大於歷次晉升到老年代的平均大小,如果大於會嘗試進行一次Minor GC;如果小於或者不允許冒險,會進行一次Full GC。

相關文章