完蛋!我被 Out of Memory 包圍了!

張哥說技術發表於2023-11-10

來源:京東雲開發者

  • 是極致魅惑、灑脫自由的 Java heap space?
  • 是知性柔情、溫婉大氣的 GC overhead limit exceeded?
  • 是純真無邪、活潑可愛的 Metaspace?
  • 如果以上不是你的菜,那還有……
  • 刁蠻任性,無跡可尋的 CodeCache!
  • 性感火辣、心思細膩的 Direct Memory
  • 高貴冷豔,獨愛你一人的 OOM Killer!

總有一款,能讓你鍾情!BUG 選擇權,現在交由你手!


一、Java heap space

這是最常見的一個 OOM 問題了,誰還沒經歷過一個 Heap OOM呢?
當堆記憶體被塞滿之後,一邊 GC 無法及時回收,一邊又在繼續建立新物件,Allocator 無法分配新的記憶體之後,就會送一個 OOM 的錯誤:


java.lang.OutOfMemoryError: Java heap space
分析解決起來無非是那幾步:
  1. dump 堆記憶體
  2. 透過 MAT、YourKit、JProfiler 、IDEA Profiler 等一系列工具分析dump檔案
  3. 找到佔用記憶體最多、最大的物件,看看是哪個小可愛乾的
  4. 分析程式碼,嘗試最佳化程式碼、減少物件建立
  5. 增加 JVM 堆記憶體、限制請求數、執行緒數、增加節點數量等

常見類庫使用誤區

尤其是一些工具庫,儘可能地避免每次新建物件,從而節省記憶體提升效能。
大多數主流的類庫,入口類都保證了單例執行緒安全,全域性維護一份即可
舉一些常見的錯誤使用例子:

Apache HttpClient

CloseableHttpClient ,這玩意相當於一個“瀏覽器程式”了,背後有連線池連線複用,一堆機制的輔助類,如果每次都 new 一個,不僅速度慢,而且浪費了大量資源。
比較正常的做法是,全域性維護一個(或者根據業務場景分組,每組一個)例項,服務啟動時建立,服務關閉時銷燬:

CloseableHttpClient httpClient = HttpClients.custom()                .setMaxConnPerRoute(maxConnPerRoute)                .setMaxConnTotal(maxConnTotal)                /// ...                                 .build();

Gson

畢竟是 Google 的專案,入口類自然也是實現了執行緒安全,全域性維護一份 Gson 例項即可

Jackson

Jackson 作為 Spring MVC 預設的 JSON 處理庫,功能強大、使用者眾多,xml/json/yaml/properties/csv 各種主流格式都支援,單例執行緒安全自然也是 ok 的,全域性維護一份 ObjectMapper 即可。


二、GC overhead limit exceeded

這個錯誤比較有意思,上面的 Java heap space 是記憶體徹底滿了之後,還在持續的建立新物件,此時服務會徹底假死,無法處理新的請求。
而這個錯誤,只是表示 GC 開銷過大,Collector 花了大量的時間回收記憶體,但釋放的堆記憶體卻很小,並不代表服務死了
此時程式處於一種很微妙的狀態:堆記憶體滿了(或者達到回收閾值),不停的觸發 GC 回收,但大多數物件都是可達的無法回收,同時 Mutator 還在低頻率的建立新物件。
出現這個錯誤,一般都是流量較低的場景,有太多常駐的可達物件無法回收,但是吧,GC 後空閒的記憶體還可以滿足服務的基本使用
不過此時,已經在頻繁的老年代GC了,老年代又大物件又多、在現有的回收演演算法下,GC 效率非常低並切資源佔用巨大,甚至會出現把 CPU 打滿的情況。
出現這個錯誤的時候,從監控角度看起來可能是這個樣子:

  1. 請求量可能並不大
  2. 不停 GC,並切暫停時間很長
  3. 時不時的還有新的請求,但響應時間很高
  4. CPU 利用率很高

畢竟還是堆記憶體的問題,排查思路和上面的 Java heap space 沒什麼區別。


三、Metaspace/PermGen

Metaspace 區域裡,最主要的就是 Class 的後設資料了,ClassLoader 載入的資料,都會儲存在這裡。
MetaSpace 初始值很小,預設是沒有上限的。當利用率超過40%(預設值 MinMetaspaceFreeRatio)會進行擴容,每次擴容一點點,擴容也不會直接 FullGC。
比較推薦的做法,是不給初始值,但限制最大值:

-XX:MaxMetaspaceSize=

不過還是得小心,這玩意滿了後果很嚴重,輕則 Full GC,重則 OOM:

java.lang.OutOfMemoryError: Metaspace

排查 MetaSpace 的問題,主要思路還是追蹤 Class Load資料,比較主流的做法是:

  1. 透過 Arthas 之類的工具,檢視 ClassLoader、loadClassess 的資料,分析數量較多的 ClassLoader 或者 Class
  2. 列印每個 class 的載入日誌:-XX:+TraceClassLoading -XX:+TraceClassUnloading

下面介紹幾個常見的,可能導致 MetaSpace 增長的場景:

反射使用不當

JAVA 裡的反射,效能是非常低的,所以反射的物件必須得快取起來。尤其是這個Method物件,如果在併發的場景下,每次都獲取新的 Method,然後 invoke 的話,用不了多久 MetaSpace 就給你打爆!
簡單的說,併發場景下,Method.invoke 會重複的動態建立 class,從而導致 MetaSpace 區域增長,具體分析可以參考笨神的文章《從一起GC血案談到反射原理》:。
用反射時,儘可能的用成熟的工具類,Spring的、Apache的都可以。它們都內建了reflection相關物件的快取,功能又全效能又好,足以解決日常的使用需求。

一些 Agent 的 bug

一些 Java Agent,靜態的和執行時注入的都算。基於 Instrumentation 這套 API 做了各種增強,一會 load 一會 redefine 一會remove的,如果不小心出現 BUG,也很容易生成大量動態的 class,從而導致 metaspace 打滿。

動態代理問題

像 Spring 的 AOP ,也是基於動態代理實現的,不管是 CgLib 還是 JDK Proxy,不管是 ASM 還是 ByteBuddy。最終的結果都逃不開動態建立、載入 Class,有這兩個操作,那 Metaspace 必定受影響。
Spring 的 Bean 預設是 singleton 的,如果配置為 prototype,那麼每次 getBean 就會建立新的代理物件,重新生成動態的 class、重新 define,MetaSpace 自然越來越大。


四、Code Cache

Code Cache 區域,儲存的是 JIT 編譯後的熱點程式碼快取(注意,編譯過程中使用的記憶體不屬於 Code cache),也屬於 non heap 。
如果 Code cache 滿了,你可能會看到這麼一條日誌:

Server VM warning: CodeCache is full. Compiler has been disabled.

此時 JVM 會禁用 JIT 編譯,你的服務也會開始變慢。
Code Cache 的上限預設比較低,一般是240MB/128MB,不同平臺可能有所區別。
可以透過引數來調整 Code Cache 的上限:

-XX:ReservedCodeCacheSize=

只要儘量避免過大的Class、Method ,一般也不太會出現這個區域被打滿的問題,預設的 240MB/128MB 也足夠了


五、Direct Memory

Direct Memory 區域,一般稱之為直接記憶體,很多涉及到 磁碟I/O ,Socket I/O 的場景,為了“Zero Copy”提升效能都會使用 Direct Memory。
就比如 Netty ,它真的是把 Direct Memory 玩出了花(有空寫一篇 Netty 記憶體管理分析)……
使用 Direct Memory時,相當於直接繞過 JVM 記憶體管理,呼叫 malloc() 函式,體驗手動管理記憶體的樂趣~
不過吧,這玩意使用比較危險,一般都配合 Unsafe 操作,一個不小心地址讀寫的地址錯誤,就能得到一個 JVM 給你的驚喜:

## A fatal error has been detected by the Java Runtime Environment:##  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00007ffdbd5d19b4, pid=1208, tid=0x0000000000002ee0## JRE version: Java(TM) SE Runtime Environment (8.0_301-b09) (build 1.8.0_301-b09)# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.301-b09 mixed mode windows-amd64 compressed oops)  # Problematic frame:# C  [msvcr100.dll+0x119b4]# # No core dump will be written. Minidumps are not enabled by default on client versions of Windows## If you would like to submit a bug report, please visit:#   

更多的解釋,可以參考我這篇《Java中的Heap Buffer與Direct Buffer》:
這個 Direct Memory 區域,預設是無上限的,但為了防止被 OS Kill,還是會限制一下,給個256MB或者更小的值,防止記憶體無限增長:


-XX:MaxDirectMemorySize=
如果 Direct Memory 達到 MaxDirectMemorySize 並且無法釋放時,就會得到一個 OOM錯誤:
java.lang.OutOfMemoryError: Direct buffer memory



六、Linux OOM Killer

跳出 JVM 記憶體管理之後,當 OS 記憶體耗盡時,Linux 會選擇記憶體佔用最多,優先順序最低或者最不重要的程式殺死。
一般在容器裡,主要的程式就是肯定是我們的 JVM ,一旦記憶體滿,第一個殺的就是它,而且還是 kill -TERM (-9)訊號,打你一個猝不及防。
如果 JVM 記憶體引數配置合理,遠低於容器記憶體限制,還是出現了 OOM Killer 的話,那麼恭喜你,大機率是有什麼 Native 記憶體洩漏。
這部分記憶體,JVM 它還管不了。
除了 JVM 內部的 Native 洩漏 BUG 這種小機率事件外,大機率是你引用的第三方庫導致的。
這類問題排查起來非常麻煩,畢竟在 JVM 之外,只能靠一些原生的工具去分析。
而且吧,這種動不動就要 root 許可權的工具,可是得領導審批申請許可權的……排查成本真的很高
排查 Native 記憶體的基本的思路是:

  1. pmap 檢視記憶體地址對映,定位可疑記憶體塊、分析記憶體塊資料
  2. strace 手動追蹤程式系統呼叫,分析記憶體分配的系統呼叫鏈路
  3. 更換jemalloc/tcmalloc之類的記憶體分配器(或者 async-profiler有個支援native 分析的分支)追蹤malloc的呼叫鏈路

目前最常見的 Native 記憶體洩漏場景,是 JDK 的 Inflater/Deflater 這倆臥龍鳳雛,功能是提供 GZIP 的壓縮、解壓,在預設 glibc 的 malloc 實現下,很容易出現“記憶體洩漏”。如果出現 Native 記憶體洩漏,可以先看看應用裡有沒有 GZIP 相關操作,說不定有驚喜。
好了,各類風格的 OOM 都感受完了,到底哪一個更能打動你呢?
-end-

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2994617/,如需轉載,請註明出處,否則將追究法律責任。

相關文章