物件存活演算法
Java 堆中存放著幾乎所有的物件例項,垃圾收集器在對堆進行回收前,需要確定物件是否存活。
引用計數演算法
給物件新增一個引用計數器,每當一個地方引用它時,計數器的值加 1;引用失效時減 1。
主流 JVM 沒有選用此種演算法管理記憶體,主要原因是它難以解決物件間迴圈引用的問題。
可達性分析演算法
可達性分析演算法是 JVM 主流實現中採用的演算法。基本思路是通過一系列 GC Roots
物件為起點向下搜尋,搜尋所走過的路徑稱為 引用鏈
。當一個物件到 GC Roots 沒有任何引用鏈相連時,會被判定為可回收物件。
GC Roots 物件包括以下幾種:虛擬機器棧中引用的物件;方法區中類靜態屬性引用的物件;方法區中常量引用的物件;本地方法棧中引用的物件。
引用型別
JDK 1.2 後,Java 中的引用分為強引用、軟引用、弱引用和虛引用 4 種。
強引用在程式碼中普遍存在,如 Object o = new Object()
,只要強引用在,垃圾回收器就永遠不會回收被引用的物件。
軟引用用來描述有用但非必須的物件,在發生記憶體溢位異常之前被回收。
弱引用和軟引用類似,強度更弱,只能生存到下一次垃圾收集之前。
虛引用不會對生存時間構成影響,也無法通過虛引用取得例項,設定虛引用的唯一目的就是能在這個物件被回收時受到系統通知。
回收方法區
方法區的回收主要包括廢棄常量和無用的類。
廢棄常量和堆中的物件類似,當發生垃圾回收時,如果常量池中的常量不存在任何引用,必要情況下回被清理。
判斷一個類無用的條件很苛刻,需要所有例項都已經被回收、載入該類的 ClassLoader 已經被回收,並且該類對應的 java.lang.Class 物件沒有在任何地方被引用,無法通過反射訪問該類的方法,滿足以上條件的無用類才能被回收。
垃圾收集演算法
標記 — 清除演算法
先標記出所有需要回收的物件,然後統一回收。兩個階段效率都不高,另外標記清除後會產生大量不連續的記憶體碎片。
複製演算法
將可用記憶體分為大小相等兩塊,每次使用其中一塊。記憶體用完時將還存活的物件複製到另一塊上,再把已使用的空間一次清理掉。
新生代中大多物件朝生夕死,不需要按照 1 : 1 分配記憶體空間,而是分為一塊較大的 Eden 空間和兩塊較小的 Survivor 空間,每次使用 Eden 空間和其中一塊 Survivor 空間。回收時將 Eden 和 Survivor 中存活的物件一次性複製到另一塊 Survivor 空間,再清理掉之前使用的兩塊記憶體空間。HotSpot 預設 Eden 和 Survivor 的大小比例為 8 : 1,可用空間為 90%。當 Survivor 記憶體不夠時需依賴老年代進行分配擔保。
標記 — 整理演算法
標記整理演算法更適合於老年代,標記之後不直接對可回收物件進行清理,而是讓存活物件都向一段移動,然後清理掉邊界以外的記憶體。
分代收集
當前商業虛擬機器都採用分代收集,根據物件存活週期把記憶體劃分為幾塊。一般把 Java 堆分為新生代和老年代,新生代採用複製演算法,老年代使用標記清理演算法或標記整理演算法。
HotSpot 演算法實現
HotSpot 實現上述演算法時,須對演算法的執行效率嚴格考量,才能保證虛擬機器高效執行。
列舉根節點
主流虛擬機器都使用 準確式 GC
,即知道記憶體中資料的具體型別,所以不需要一個不漏地檢查所有執行上下文和全域性的引用位置。JVM 有辦法直接得知哪些地方存放著物件引用,HotSpot 使用一組稱為 OopMap
的資料型別達到這個目的。
安全點
導致 OopMap 變化的指令很多,如果針對每次變化採取措施 GC 的成本會變得很高。實際上,HotSpot 沒有為每條指令生成 OopMap,只在特定位置記錄這些資訊,這些位置稱為 安全點
,程式只有在安全點才能暫停。安全點既不能太少又不能太多,基本選在方法呼叫、迴圈跳轉等具有讓程式長時間執行特性的位置。
讓程式在安全點暫停主要有 搶先式中斷 和 主動式中斷 兩種方案。搶先式先把所有執行緒中斷,再讓不處於安全點的執行緒繼續執行到安全點。主動式則是在安全點的位置有是否需要中斷的標誌,執行緒執行到安全點時依據標誌中斷掛起。
安全區域
安全區域指在一段程式碼片段內不會引起引用變化的區域,如執行緒處於 Sleep 狀態揮著 Blocked 狀態,執行緒無法響應 JVM 的中斷請求。
程式進入安全區域時,先標記自己已經進入安全區域,如在這個時候發起 GC,不需要處理標記進去安全區域的執行緒。線上程離開安全區域時,需要檢查是否完成列舉根節點或整個 GC 過程,已完成則繼續執行,否則需要等到接收可以安全離開的訊號為止。
垃圾收集器
垃圾收集器是記憶體回收的具體實現,目前沒有最好的收集器,只有最合適的收集器,所以 JVM 實現了幾個不同的收集器。
Serial / Serial Old 收集器
單執行緒收集器,只使用一個 CPU 和一個收集執行緒,垃圾回收時暫停其他所有的工作執行緒,直到收集結束。
與其他收集器的單執行緒比簡單高效,對於執行在 Client 模式下的虛擬機器是一個好選擇。
新生代採用複製演算法,老年代採用標記整理演算法。
ParNew 收集器
Serial 的多執行緒版本,能與 CMS 收集器配置工作,所以是許多執行在 Server 模式下的首選新生代收集器。
在垃圾收集器的上下文中,先明確兩個概念:
並行:多條垃圾執行緒並行工作,使用者執行緒仍然處於等待狀態
併發:使用者執行緒和垃圾回收執行緒同時執行(不一定並行,可能會交替執行)
Parallel Scavenge / Parallel Old 收集器
使用複製演算法的新生代多執行緒收集器,特點是更關注吞吐量,即執行使用者程式碼時間 / (執行使用者程式碼時間 + 垃圾收集時間)。
Parallel Scavenge 收集有一個引數開關 -XX:+UseAdaptiveSizePolicy,開啟後就不需要手動設定新生代大小、Eden 與 Survivor 區的比例等細節引數,JVM 會根據當前系統執行情況動態調整,以提供最合適的停頓時間或最大吞吐量。
CMS 收集器
Concurrent Mark Sweep 以獲取最短收回停頓時間為目標,使用標記清除演算法。收集過程分為 4 部:初始標記、併發標記、重新標記和併發清理。初始標記和重新標記耗時很少,併發標記和併發清理兩部耗時較長,但都可以與使用者執行緒一起併發執行。
CMS 收集器有 3 個明顯缺點:1.對 CPU 資源敏感,併發階段佔用一部分 CPU 資源導致應用程式變慢。2.無法收集浮動垃圾,即併發清理階段由於程式還在執行產生的垃圾,可能導致另一次 Full GC。3.標記清除演算法導致收集結束後存在大量空間碎片,可配置 Full GC 執行多少次時伴隨一次空間壓縮。
G1 收集器
Garbge-First 面向服務端應用,具有併發並行、分代收集、空間整合、可預測停頓等特點。
使用 G1 時,Java 堆的記憶體分為多個大小相等的獨立區域,雖然保留新生代和老年代的概念,但不再是屋裡隔離。G1 跟蹤各個 Region 裡垃圾堆積的價值,在後臺維護一個優先列表,優先回收價值最大的 Region。
G1 的運作大致分為初始標記、併發標記、最終標記和篩選回收。
記憶體分配與回收策略
多數情況下,物件在新生代 Eden 區分配。Eden 沒有足夠的空間時進行一次 Minor GC。當存活物件無法放入 Survivor 區時,通過分配擔保提前轉移到老年代。
需要大量連續記憶體空間的大物件會直接進入老年代,如很長的字串或陣列。經常出現大物件容易導致記憶體還有不少空間時就今天出發 GC。
長期存活的物件進入老年代。每經過一次 Minor GC,物件中的年齡計數器會加 1,加到一定程度(預設 15)時晉升到老年代。如果 Survivor 空間中相同年齡的所有物件帶下總和大於 Survivor 空間的一半,年齡大於或等於該年齡的物件可以直接進入老年代。
在發生 Minor GC 之前,JVM 會先檢查老年代中最大可用連續空間是否大於新生代所有物件總和,如果大於,Minor GC 可以確定是安全的。否則要根據是否允許擔保失敗判斷是否進行 Full GC。允許擔保失敗時,會根據之前晉升老年代的平均大小作為經驗來判定是否進行嘗試。