新一代垃圾回收器ZGC的探索與實踐

美團SRC發表於2020-08-10

文|王東 王偉

美團資訊保安資深工程師/技術專家

筆者具備豐富的業務安全治理以及平臺建設經驗,致力於建設易用、穩定、高效的業務安全系統以及規則管理平臺。

很多低延遲高可用Java服務的系統可用性經常受GC停頓的困擾,作為新一代的低延遲垃圾回收器,ZGC在大記憶體低延遲服務的記憶體管理和回收方面,有著非常不錯的表現。

本文從GC之痛、ZGC原理、ZGC調優實踐、升級ZGC效果等維度展開,詳述了ZGC在美團低延時場景中的應用,以及在生產環境中取得的一些成果。希望這些實踐對大家有所幫助或者啟發。


ZGC(The Z Garbage Collector)是JDK 11中推出的一款低延遲垃圾回收器,它的設計目標包括:

  • 停頓時間不超過10ms;
  • 停頓時間不會隨著堆的大小,或者活躍物件的大小而增加;
  • 支援8MB~4TB級別的堆(未來支援16TB)。

從設計目標來看,我們知道ZGC適用於大記憶體低延遲服務的記憶體管理和回收。本文主要介紹ZGC在低延時場景中的應用和卓越表現,文章內容主要分為四部分:

  • GC之痛:介紹實際業務中遇到的GC痛點,並分析CMS收集器和G1收集器停頓時間瓶頸;
  • ZGC原理:分析ZGC停頓時間比G1或CMS更短的本質原因,以及背後的技術原理;
  • ZGC調優實踐:重點分享對ZGC調優的理解,並分析若干個實際調優案例;
  • 升級ZGC效果:展示在生產環境應用ZGC取得的效果。

GC之痛

很多低延遲高可用Java服務的系統可用性經常受GC停頓的困擾。GC停頓指垃圾回收期間STW(Stop The World),當STW時,所有應用執行緒停止活動,等待GC停頓結束。


以美團風控服務為例,部分上游業務要求風控服務65ms內返回結果,並且可用性要達到99.99%。但因為GC停頓,我們未能達到上述可用性目標。當時使用的是CMS垃圾回收器,單次Young GC 40ms,一分鐘10次,介面平均響應時間30ms。透過計算可知,有( 40ms + 30ms ) * 10次 / 60000ms = 1.12%的請求的響應時間會增加0 ~ 40ms不等,其中30ms * 10次 / 60000ms = 0.5%的請求響應時間會增加40ms。


可見,GC停頓對響應時間的影響較大。為了降低GC停頓對系統可用性的影響,我們從降低單次GC時間和降低GC頻率兩個角度出發進行了調優,還測試過G1垃圾回收器,但這三項措施均未能降低GC對服務可用性的影響。


CMS與G1停頓時間瓶頸

在介紹ZGC之前,首先回顧一下CMS和G1的GC過程以及停頓時間的瓶頸。CMS新生代的Young GC、G1和ZGC都基於標記-複製演算法,但演算法具體實現的不同就導致了巨大的效能差異。


標記-複製演算法應用在CMS新生代(ParNew是CMS預設的新生代垃圾回收器)和G1垃圾回收器中。標記-複製演算法可以分為三個階段:

標記階段,即從GC Roots集合開始,標記活躍物件;

轉移階段,即把活躍物件複製到新的記憶體地址上;

重定位階段,因為轉移導致物件的地址發生了變化,在重定位階段,所有指向物件舊地址的指標都要調整到物件新的地址上。


下面以G1為例,透過G1中標記-複製演算法過程(G1的Young GC和Mixed GC均採用該演算法),分析G1停頓耗時的主要瓶頸。G1垃圾回收週期如下圖所示:

新一代垃圾回收器ZGC的探索與實踐

G1的混合回收過程可以分為標記階段、清理階段和複製階段。

標記階段停頓分析

  • 初始標記階段:初始標記階段是指從GC Roots出發標記全部直接子節點的過程,該階段是STW的。由於GC Roots數量不多,通常該階段耗時非常短。
  • 併發標記階段:併發標記階段是指從GC Roots開始對堆中物件進行可達性分析,找出存活物件。該階段是併發的,即應用執行緒和GC執行緒可以同時活動。併發標記耗時相對長很多,但因為不是STW,所以我們不太關心該階段耗時的長短。
  • 再標記階段:重新標記那些在併發標記階段發生變化的物件。該階段是STW的。

清理階段停頓分析

  • 清理階段清點出有存活物件的分割槽和沒有存活物件的分割槽,該階段不會清理垃圾物件,也不會執行存活物件的複製。該階段是STW的。

複製階段停頓分析

  • 複製演算法中的轉移階段需要分配新記憶體和複製物件的成員變數。轉移階段是STW的,其中記憶體分配通常耗時非常短,但物件成員變數的複製耗時有可能較長,這是因為複製耗時與存活物件數量與物件複雜度成正比。物件越複雜,複製耗時越長。

四個STW過程中,初始標記因為只標記GC Roots,耗時較短。再標記因為物件數少,耗時也較短。清理階段因為記憶體分割槽數量少,耗時也較短。轉移階段要處理所有存活的物件,耗時會較長。因此,G1停頓時間的瓶頸主要是標記-複製中的轉移階段STW。為什麼轉移階段不能和標記階段一樣併發執行呢?主要是G1未能解決轉移過程中準確定位物件地址的問題。

G1的Young GC和CMS的Young GC,其標記-複製全過程STW,這裡不再詳細闡述。


ZGC原理

全併發的ZGC

與CMS中的ParNew和G1類似,ZGC也採用標記-複製演算法,不過ZGC對該演算法做了重大改進:ZGC在標記、轉移和重定位階段幾乎都是併發的,這是ZGC實現停頓時間小於10ms目標的最關鍵原因。


ZGC垃圾回收週期如下圖所示:

新一代垃圾回收器ZGC的探索與實踐

ZGC只有三個STW階段:初始標記,再標記,初始轉移。其中,初始標記和初始轉移分別都只需要掃描所有GC Roots,其處理時間和GC Roots的數量成正比,一般情況耗時非常短;再標記階段STW時間很短,最多1ms,超過1ms則再次進入併發標記階段。即,ZGC幾乎所有暫停都只依賴於GC Roots集合大小,停頓時間不會隨著堆的大小或者活躍物件的大小而增加。與ZGC對比,G1的轉移階段完全STW的,且停頓時間隨存活物件的大小增加而增加。


ZGC關鍵技術

ZGC透過著色指標和讀屏障技術,解決了轉移過程中準確訪問物件的問題,實現了併發轉移。大致原理描述如下:併發轉移中“併發”意味著GC執行緒在轉移物件的過程中,應用執行緒也在不停地訪問物件。假設物件發生轉移,但物件地址未及時更新,那麼應用執行緒可能訪問到舊地址,從而造成錯誤。而在ZGC中,應用執行緒訪問物件將觸發“讀屏障”,如果發現物件被移動了,那麼“讀屏障”會把讀出來的指標更新到物件的新地址上,這樣應用執行緒始終訪問的都是物件的新地址。那麼,JVM是如何判斷物件被移動過呢?就是利用物件引用的地址,即著色指標。下面介紹著色指標和讀屏障技術細節。


著色指標

|著色指標是一種將資訊儲存在指標中的技術。

ZGC僅支援64位系統,它把64位虛擬地址空間劃分為多個子空間,如下圖所示:

新一代垃圾回收器ZGC的探索與實踐

其中,[0~4TB) 對應Java堆,[4TB ~ 8TB) 稱為M0地址空間,[8TB ~ 12TB) 稱為M1地址空間,[12TB ~ 16TB) 預留未使用,[16TB ~ 20TB) 稱為Remapped空間。


當應用程式建立物件時,首先在堆空間申請一個虛擬地址,但該虛擬地址並不會對映到真正的實體地址。ZGC同時會為該物件在M0、M1和Remapped地址空間分別申請一個虛擬地址,且這三個虛擬地址對應同一個實體地址,但這三個空間在同一時間有且只有一個空間有效。ZGC之所以設定三個虛擬地址空間,是因為它使用“空間換時間”思想,去降低GC停頓時間。“空間換時間”中的空間是虛擬空間,而不是真正的物理空間。後續章節將詳細介紹這三個空間的切換過程。


與上述地址空間劃分相對應,ZGC實際僅使用64位地址空間的第0~41位,而第42~45位儲存後設資料,第47~63位固定為0。

新一代垃圾回收器ZGC的探索與實踐

ZGC將物件存活資訊儲存在42~45位中,這與傳統的垃圾回收並將物件存活資訊放在物件頭中完全不同。


讀屏障

| 讀屏障是JVM嚮應用程式碼插入一小段程式碼的技術。當應用執行緒從堆中讀取物件引用時,就會執行這段程式碼。需要注意的是,僅“從堆中讀取物件引用”才會觸發這段程式碼。

讀屏障示例:

新一代垃圾回收器ZGC的探索與實踐


ZGC中讀屏障的程式碼作用:在物件標記和轉移過程中,用於確定物件的引用地址是否滿足條件,並作出相應動作。


ZGC併發處理演示

接下來詳細介紹ZGC一次垃圾回收週期中地址檢視的切換過程:

  • 初始化:ZGC初始化之後,整個記憶體空間的地址檢視被設定為Remapped。程式正常執行,在記憶體中分配物件,滿足一定條件後垃圾回收啟動,此時進入標記階段。
  • 併發標記階段:第一次進入標記階段時檢視為M0,如果物件被GC標記執行緒或者應用執行緒訪問過,那麼就將物件的地址檢視從Remapped調整為M0。所以,在標記階段結束之後,物件的地址要麼是M0檢視,要麼是Remapped。如果物件的地址是M0檢視,那麼說明物件是活躍的;如果物件的地址是Remapped檢視,說明物件是不活躍的。
  • 併發轉移階段:標記結束後就進入轉移階段,此時地址檢視再次被設定為Remapped。如果物件被GC轉移執行緒或者應用執行緒訪問過,那麼就將物件的地址檢視從M0調整為Remapped。

其實,在標記階段存在兩個地址檢視M0和M1,上面的過程顯示只用了一個地址檢視。之所以設計成兩個,是為了區別前一次標記和當前標記。即第二次進入併發標記階段後,地址檢視調整為M1,而非M0。


著色指標和讀屏障技術不僅應用在併發轉移階段,還應用在併發標記階段:將物件設定為已標記,傳統的垃圾回收器需要進行一次記憶體訪問,並將物件存活資訊放在物件頭中;而在ZGC中,只需要設定指標地址的第42~45位即可,並且因為是暫存器訪問,所以速度比訪問記憶體更快。

新一代垃圾回收器ZGC的探索與實踐


ZGC調優實踐

ZGC不是“銀彈”,需要根據服務的具體特點進行調優。網路上能搜尋到實戰經驗較少,調優理論需自行摸索,我們在此階段也耗費了不少時間,最終才達到理想的效能。本文的一個目的是列舉一些使用ZGC時常見的問題,幫助大家使用ZGC提高服務可用性。

調優基礎知識

理解ZGC重要配置引數

以我們服務在生產環境中ZGC引數配置為例,說明各個引數的作用:

重要引數配置樣例:

-Xms10G -Xmx10G 

-XX:ReservedCodeCacheSize=256m -XX:InitialCodeCacheSize=256m 

-XX:+UnlockExperimentalVMOptions -XX:+UseZGC 

-XX:ConcGCThreads=2 -XX:ParallelGCThreads=6 

-XX:ZCollectionInterval=120 -XX:ZAllocationSpikeTolerance=5 

-XX:+UnlockDiagnosticVMOptions -XX:-ZProactive 

-Xlog:safepoint,classhisto*=trace,age*,gc*=info:file=/opt/logs/logs/gc-%t.log:time,tid,tags:filecount=5,filesize=50m 

-Xms -Xmx:堆的最大記憶體和最小記憶體,這裡都設定為10G,程式的堆記憶體將保持10G不變。

-XX:ReservedCodeCacheSize -XX:InitialCodeCacheSize: 設定CodeCache的大小, JIT編譯的程式碼都放在CodeCache中,一般服務64m或128m就已經足夠。我們的服務因為有一定特殊性,所以設定的較大,後面會詳細介紹。

-XX:+UnlockExperimentalVMOptions -XX:+UseZGC:啟用ZGC的配置。

-XX:ConcGCThreads:併發回收垃圾的執行緒。預設是總核數的12.5%,8核CPU預設是1。調大後GC變快,但會佔用程式執行時的CPU資源,吞吐會受到影響。

-XX:ParallelGCThreads:STW階段使用執行緒數,預設是總核數的60%。

-XX:ZCollectionInterval:ZGC發生的最小時間間隔,單位秒。

-XX:ZAllocationSpikeTolerance:ZGC觸發自適應演算法的修正係數,預設2,數值越大,越早的觸發ZGC。

-XX:+UnlockDiagnosticVMOptions -XX:-ZProactive:是否啟用主動回收,預設開啟,這裡的配置表示關閉。

-Xlog:設定GC日誌中的內容、格式、位置以及每個日誌的大小。


理解ZGC觸發時機

相比於CMS和G1的GC觸發機制,ZGC的GC觸發機制有很大不同。ZGC的核心特點是併發,GC過程中一直有新的物件產生。如何保證在GC完成之前,新產生的物件不會將堆佔滿,是ZGC引數調優的第一大目標。因為在ZGC中,當垃圾來不及回收將堆佔滿時,會導致正在執行的執行緒停頓,持續時間可能長達秒級之久。


ZGC有多種GC觸發機制,總結如下:

  • 阻塞記憶體分配請求觸發:當垃圾來不及回收,垃圾將堆佔滿時,會導致部分執行緒阻塞。我們應當避免出現這種觸發方式。日誌中關鍵字是“Allocation Stall”。
  • 基於分配速率的自適應演算法:最主要的GC觸發方式,其演算法原理可簡單描述為”ZGC根據近期的物件分配速率以及GC時間,計算出當記憶體佔用達到什麼閾值時觸發下一次GC”。自適應演算法的詳細理論可參考彭成寒《新一代垃圾回收器ZGC設計與實現》一書中的內容。透過ZAllocationSpikeTolerance引數控制閾值大小,該引數預設2,數值越大,越早的觸發GC。我們透過調整此引數解決了一些問題。日誌中關鍵字是“Allocation Rate”。
  • 基於固定時間間隔:透過ZCollectionInterval控制,適合應對突增流量場景。流量平穩變化時,自適應演算法可能在堆使用率達到95%以上才觸發GC。流量突增時,自適應演算法觸發的時機可能會過晚,導致部分執行緒阻塞。我們透過調整此引數解決流量突增場景的問題,比如定時活動、秒殺等場景。日誌中關鍵字是“Timer”。
  • 主動觸發規則:類似於固定間隔規則,但時間間隔不固定,是ZGC自行算出來的時機,我們的服務因為已經加了基於固定時間間隔的觸發機制,所以透過-ZProactive引數將該功能關閉,以免GC頻繁,影響服務可用性。日誌中關鍵字是“Proactive”。
  • 預熱規則:服務剛啟動時出現,一般不需要關注。日誌中關鍵字是“Warmup”。
  • 外部觸發:程式碼中顯式呼叫System.gc()觸發。日誌中關鍵字是“System.gc()”。
  • 後設資料分配觸發:後設資料區不足時導致,一般不需要關注。日誌中關鍵字是“Metadata GC Threshold”。

理解ZGC日誌

一次完整的GC過程,需要注意的點已在圖中標出。

新一代垃圾回收器ZGC的探索與實踐

注意:該日誌過濾了進入安全點的資訊。正常情況,在一次GC過程中還穿插著進入安全點的操作。


GC日誌中每一行都註明了GC過程中的資訊,關鍵資訊如下:

  • Start:開始GC,並標明的GC觸發的原因。上圖中觸發原因是自適應演算法。
  • Phase-Pause Mark Start:初始標記,會STW。
  • Phase-Pause Mark End:再次標記,會STW。
  • Phase-Pause Relocate Start:初始轉移,會STW。
  • Heap資訊:記錄了GC過程中Mark、Relocate前後的堆大小變化狀況。High和Low記錄了其中的最大值和最小值,我們一般關注High中Used的值,如果達到100%,在GC過程中一定存在記憶體分配不足的情況,需要調整GC的觸發時機,更早或者更快地進行GC。
  • GC資訊統計:可以定時的列印垃圾收集資訊,觀察10秒內、10分鐘內、10個小時內,從啟動到現在的所有統計資訊。利用這些統計資訊,可以排查定位一些異常點。

日誌中內容較多,關鍵點已用紅線標出,含義較好理解,更詳細的解釋大家可以自行在網上查閱資料。

新一代垃圾回收器ZGC的探索與實踐

理解ZGC停頓原因

我們在實戰過程中共發現了6種使程式停頓的場景,分別如下:

  • GC時,初始標記:日誌中Pause Mark Start。
  • GC時,再標記:日誌中Pause Mark End。
  • GC時,初始轉移:日誌中Pause Relocate Start。

記憶體分配阻塞:當記憶體不足時執行緒會阻塞等待GC完成,關鍵字是"Allocation Stall"。

新一代垃圾回收器ZGC的探索與實踐

  • 安全點:所有執行緒進入到安全點後才能進行GC,ZGC定期進入安全點判斷是否需要GC。先進入安全點的執行緒需要等待後進入安全點的執行緒直到所有執行緒掛起。
  • dump執行緒、記憶體:比如jstack、jmap命令。

新一代垃圾回收器ZGC的探索與實踐

新一代垃圾回收器ZGC的探索與實踐


調優案例

我們維護的服務名叫Zeus,它是美團的規則平臺,常用於風控場景中的規則管理。規則執行是基於開源的表示式執行引擎Aviator。Aviator內部將每一條表示式轉化成Java的一個類,透過呼叫該類的介面實現表示式邏輯。

Zeus服務內的規則數量超過萬條,且每臺機器每天的請求量幾百萬。這些客觀條件導致Aviator生成的類和方法會產生很多的ClassLoader和CodeCache,這些在使用ZGC時都成為過GC的效能瓶頸。接下來介紹兩類調優案例。


記憶體分配阻塞,系統停頓可達到秒級

案例一:秒殺活動中流量突增,出現效能毛刺

日誌資訊:對比出現效能毛刺時間點的GC日誌和業務日誌,發現JVM停頓了較長時間,且停頓時GC日誌中有大量的“Allocation Stall”日誌。

分析:這種案例多出現在“自適應演算法”為主要GC觸發機制的場景中。ZGC是一款併發的垃圾回收器,GC執行緒和應用執行緒同時活動,在GC過程中,還會產生新的物件。GC完成之前,新產生的物件將堆佔滿,那麼應用執行緒可能因為申請記憶體失敗而導致執行緒阻塞。當秒殺活動開始,大量請求打入系統,但自適應演算法計算的GC觸發間隔較長,導致GC觸發不及時,引起了記憶體分配阻塞,導致停頓。

解決方法:

開啟”基於固定時間間隔“的GC觸發機制:

-XX:ZCollectionInterval。比如調整為5秒,甚至更短。

增大修正係數-XX:ZAllocationSpikeTolerance,更早觸發GC。ZGC採用正態分佈模型預測記憶體分配速率,模型修正係數ZAllocationSpikeTolerance預設值為2,值越大,越早的觸發GC,Zeus中所有叢集設定的是5。


案例二:壓測時,流量逐漸增大到一定程度後,出現效能毛刺

日誌資訊:平均1秒GC一次,兩次GC之間幾乎沒有間隔。

分析:GC觸發及時,但記憶體標記和回收速度過慢,引起記憶體分配阻塞,導致停頓。

解決方法:增大-XX:ConcGCThreads,加快併發標記和回收速度。ConcGCThreads預設值是核數的1/8,8核機器,預設值是1。該引數影響系統吞吐,如果GC間隔時間大於GC週期,不建議調整該引數。


GC Roots 數量大,單次GC停頓時間長

案例三:單次GC停頓時間30ms,與預期停頓10ms左右有較大差距

日誌資訊:觀察ZGC日誌資訊統計,“Pause Roots ClassLoaderDataGraph”一項耗時較長。

分析:dump記憶體檔案,發現系統中有上萬個ClassLoader例項。我們知道ClassLoader屬於GC Roots一部分,且ZGC停頓時間與GC Roots成正比,GC Roots數量越大,停頓時間越久。再進一步分析,ClassLoader的類名錶明,這些ClassLoader均由Aviator元件生成。分析Aviator原始碼,發現Aviator對每一個表示式新生成類時,會建立一個ClassLoader,這導致了ClassLoader數量巨大的問題。在更高Aviator版本中,該問題已經被修復,即僅建立一個ClassLoader為所有表示式生成類。

解決方法:升級Aviator元件版本,避免生成多餘的ClassLoader。


案例四:服務啟動後,執行時間越長,單次GC時間越長,重啟後恢復

日誌資訊:觀察ZGC日誌資訊統計,“Pause Roots CodeCache”的耗時會隨著服務執行時間逐漸增長。

分析:CodeCache空間用於存放Java熱點程式碼的JIT編譯結果,而CodeCache也屬於GC Roots一部分。透過新增-XX:+PrintCodeCacheOnCompilation引數,列印CodeCache中的被最佳化的方法,發現大量的Aviator表示式程式碼。定位到根本原因,每個表示式都是一個類中一個方法。隨著執行時間越長,執行次數增加,這些方法會被JIT最佳化編譯進入到Code Cache中,導致CodeCache越來越大。

解決方法:JIT有一些引數配置可以調整JIT編譯的條件,但對於我們的問題都不太適用。我們最終透過業務最佳化解決,刪除不需要執行的Aviator表示式,從而避免了大量Aviator方法進入CodeCache中。

值得一提的是,我們並不是在所有這些問題都解決後才全量部署所有叢集。即使開始有各種各樣的毛刺,但計算後發現,有各種問題的ZGC也比之前的CMS對服務可用性影響小。所以從開始準備使用ZGC到全量部署,大概用了2周的時間。在之後的3個月時間裡,我們邊做業務需求,邊跟進這些問題,最終逐個解決了上述問題,從而使ZGC在各個叢集上達到了一個更好表現。


升級ZGC效果

延遲降低

|TP(Top Percentile)是一項衡量系統延遲的指標:TP999表示99.9%請求都能被響應的最小耗時;TP99表示99%請求都能被響應的最小耗時。

在Zeus服務不同叢集中,ZGC在低延遲(TP999 < 200ms)場景中收益較大:

TP999:下降12~142ms,下降幅度18%~74%。

TP99:下降5~28ms,下降幅度10%~47%。

超低延遲(TP999 < 20ms)和高延遲(TP999 > 200ms)服務收益不大,原因是這些服務的響應時間瓶頸不是GC,而是外部依賴的效能。


吞吐下降

對吞吐量優先的場景,ZGC可能並不適合。例如,Zeus某離線叢集原先使用CMS,升級ZGC後,系統吞吐量明顯降低。究其原因有二:第一,ZGC是單代垃圾回收器,而CMS是分代垃圾回收器。單代垃圾回收器每次處理的物件更多,更耗費CPU資源;第二,ZGC使用讀屏障,讀屏障操作需耗費額外的計算資源。


總結

ZGC作為下一代垃圾回收器,效能非常優秀。ZGC垃圾回收過程幾乎全部是併發,實際STW停頓時間極短,不到10ms。這得益於其採用的著色指標和讀屏障技術。

Zeus在升級JDK 11+ZGC中,透過將風險和問題分類,然後各個擊破,最終順利實現了升級目標,GC停頓也幾乎不再影響系統可用性。

最後推薦大家升級ZGC,Zeus系統因為業務特點,遇到了較多問題,而風控其他團隊在升級時都非常順利。


參考文獻

ZGC官網:

https://wiki.openjdk.java.net/display/zgc/Main

彭成寒.《新一代垃圾回收器ZGC設計與實現》. 機械工業出版社, 2019.

從實際案例聊聊Java應用的GC最佳化

https://tech.meituan.com/2017/12/29/jvm-optimize.html

Java Hotspot G1 GC的一些關鍵技術

https://tech.meituan.com/2016/09/23/g1.html


附錄

如何使用新技術

在生產環境升級JDK 11,使用ZGC,大家最關心的可能不是效果怎麼樣,而是這個新版本用的人少,網上實踐也少,靠不靠譜,穩不穩定。其次是升級成本會不會很大,萬一不成功豈不是白白浪費時間。所以,在使用新技術前,首先要做的是評估收益、成本和風險。


評估收益

對於JDK這種世界關注的程式,大版本升級所引入的新技術一般已經在理論上經過驗證。我們要做的事情就是確定當前系統的瓶頸是否是新版本JDK可解決的問題,切忌問題未診斷清楚就採取措施。評估完收益之後再評估成本和風險,收益過大或者過小,其他兩項影響權重就會小很多。

以本文開頭提到的案例為例,假設GC次數不變(10次/分鐘),且單次GC時間從40ms降低10ms。透過計算,一分鐘內有100/60000 = 0.17%的時間在進行GC,且期間所有請求僅停頓10ms,GC期間影響的請求數和因GC增加的延遲都有所減少。


評估成本

這裡主要指升級所需要的人力成本。此項相對比較成熟,根據新技術的使用手冊判斷改動點。跟做其他專案區別不大,不再具體細說。

在我們的實踐中,兩週時間完成線上部署,達到安全穩定執行的狀態。後續持續迭代3個月,根據業務場景對ZGC進行了更契合的最佳化適配。


評估風險

升級JDK的風險可以分為三類:

  • 相容性風險:Java程式JAR包依賴很多,升級JDK版本後程式是否能執行起來。例如我們的服務是從JDK 7升級到JDK 11,需要解決較多JAR包不相容的問題。
  • 功能風險:執行起來後,是否會有一些元件邏輯變更,影響現有功能的邏輯。
  • 效能風險:功能如果沒有問題,效能是否穩定,能穩定的線上上執行。

經過分類後,每類風險的應對轉化成了常見的測試問題,不再屬於未知風險。風險是指不確定的事情,如果不確定的事情都能轉化成可確定的事情,意味著風險已消除。


升級JDK 11

選擇JDK 11,是因為在JDK 11中首次支援ZGC,而且JDK 11屬於長期支援(Long Term Support,LTS)版本,至少會被維護三年,普通版本(如JDK 12、JDK 13和JDK 14)只有6個月的維護週期,不建議使用。


本地測試環境安裝

從兩個源OpenJDK和OracleJDK下載JDK 11,二個版本的JDK主要區別是長時期的免費和付費,短期內都免費。注意JDK 11版本中的ZGC不支援Mac OS系統,在Mac OS系統上使用JDK 11只能用其他垃圾回收器,如G1。

注:

OpenJDK:https://jdk.java.net/archive/

OracleJDK:https://www.oracle.com/java/technologies/javase-jdk11-downloads.html


生產環境安裝

升級JDK 11不僅僅是升級自己專案的JDK版本,還需要編譯、釋出部署、執行、監控、效能記憶體分析工具等專案支援。美團內部的實踐:

編譯打包:美團釋出系統支援選擇JDK 11進行編譯打包。

線上執行 & 全量部署:要求線上機器已安裝JDK 11,有3種方式:

新申請預設安裝JDK 11的虛擬機器:試用JDK 11時可用這種方式;全量部署時,如果新申請機器數量過多,可能沒有足夠機器資源。

透過手寫指令碼給存量虛擬機器安裝JDK 11:不推薦,業務同學過多參與到運維當中。

使用容器提供的映象部署功能,在打包映象時安裝JDK 11:推薦方式,不需要新申請資源。

監控指標:主要是GC的時間和頻率,我們透過美團的CAT監控系統支援ZGC資料的收集(CAT已開源:https://tech.meituan.com/2018/11/01/cat-in-depth-java-application-monitoring.html)。

效能記憶體分析:線上遇到效能問題時,還需要藉助Profiling工具,美團的效能診斷最佳化平臺Scalpel已支援JDK 11的效能記憶體分析。如果你的公司沒有相關工具,推薦使用JProfier。


解決元件相容性

我們的專案包含二十多萬行程式碼,需要從JDK 7升級到JDK 11,依賴元件眾多。雖然看起來升級會比較複雜,但實際只花了兩天時間即解決了相容性問題。具體過程如下:

1. 編譯,需要修改pom檔案中的build配置,根據報錯作修改,主要有兩類:

a.一些類被刪除:比如“sun.misc.BASE64Encoder”,找到替換類java.util.Base64即可。

b.元件依賴版本不相容JDK 11問題:找到對應依賴元件,搜尋最新版本,一般都支援JDK 11。

2. 編譯成功後,啟動執行,此時仍有可能元件依賴版本問題,按照編譯時的方式處理即可。

升級所修改的依賴:

新一代垃圾回收器ZGC的探索與實踐

JDK 11已經出來兩年,常見的依賴元件都有相容性版本。但是,如果是公司內部提供的公司級元件,可能會不相容JDK 11,需要推動相關元件進行升級。如果對方升級較為困難,可以考慮拆分功能,將依賴這些元件的功能單獨部署,繼續使用低版本JDK。隨著JDK 11的卓越效能被大家悉知,相信會有更多團隊會用JDK 11解決GC問題,使用者越多,各個元件升級的動力也會越大。


驗證功能正確性

透過完備的單測、整合和迴歸測試,保證功能正確性。

相關文章