今我們們來聊聊JVM 堆外記憶體洩露的BUG是如何查詢的

Java高階開發發表於2018-04-24

原文網址 : https://blog.csdn.net/hang1995/article/details/80066984

前言

JVM的堆外記憶體洩露的定位一直是個比較棘手的問題。此次的Bug查詢從堆內記憶體的洩露反推出堆外記憶體，同時對實體記憶體的使用做了定量的分析，從而實錘了Bug的源頭。筆者將此Bug分析的過程寫成部落格，以饗讀者。

由於實體記憶體定量分析部分用到了linux kernel虛擬記憶體管理的知識，讀者如果有興趣瞭解請看ulk3(《深入理解linux核心第三版》)

記憶體洩露Bug現場

一個線上穩定執行了三年的系統，從物理機遷移到docker環境後，執行了一段時間，突然被監控系統發出了某些例項不可用的報警。所幸有負載均衡，可以自動下掉節點，如下圖所示:
這裡寫圖片描述
登入到對應機器上後，發現由於記憶體佔用太大，觸發OOM，然後被linux系統本身給kill了。

應急措施

緊急在出問題的例項上再次啟動應用，啟動後，記憶體佔用正常，一切Okay。

奇怪現象

當前設定的最大堆記憶體是1792M，如下所示:

-Xmx1792m -Xms1792m -Xmn900m -XX:PermSize=256m -XX:MaxPermSize=256m -server -Xss512k

檢視作業系統層面的監控，發現記憶體佔用情況如下圖所示:
這裡寫圖片描述
上圖藍色的線表示總的記憶體使用量，發現一直漲到了4G後，超出了系統限制。

很明顯，有堆外記憶體洩露了。

推薦一個交流學習群：697579751 裡面會分享一些資深架構師錄製的視訊錄影：有Spring，MyBatis，Netty原始碼分析，高併發、高效能、分散式、微服務架構的原理，JVM效能優化這些成為架構師必備的知識體系。還能領取免費的學習資源，目前受益良多：
這裡寫圖片描述

查詢線索

gc日誌

一般出現記憶體洩露，筆者立馬想到的就是檢視當時的gc日誌。

本身應用所採用框架會定時列印出對應的gc日誌，遂檢視，發現gc日誌一切正常。對應日誌如下:
這裡寫圖片描述
檢視了當天的所有gc日誌，發現記憶體始終會回落到170M左右，並無明顯的增加。要知道JVM程式本身佔用的記憶體可是接近4G(加上其它程式,例如日誌程式就已經到4G了)，進一步確認是堆外記憶體導致。

排查程式碼

開啟線上服務對應對應程式碼，查了一圈，發現沒有任何地方顯式利用堆外記憶體，其沒有依賴任何額外的native方法。關於網路IO的程式碼也是託管給Tomcat，很明顯，作為一個全世界廣泛流行的Web伺服器，Tomcat不大可能有堆外記憶體洩露。

進一步查詢

由於在程式碼層面沒有發現堆外記憶體的痕跡，那就繼續找些其它的資訊，希望能發現蛛絲馬跡。

Dump出JVM的Heap堆

由於線上出問題的Server已經被kill，還好有其它幾臺，登上去發現它們也佔用了很大的堆外記憶體，只是還沒有到觸發OOM的臨界點而已。於是就趕緊用jmap dump了兩臺機器中應用JVM的堆情況，這兩臺留做現場保留不動，然後將其它機器迅速重啟，以防同時被OOM導致服務不可用。

使用如下命令dump:

jmap -dump:format=b，file=heap.bin [pid]

使用MAT分析Heap檔案

挑了一個heap檔案進行分析，堆的使用情況如下圖所示:
這裡寫圖片描述
一共用了200多M，和之前gc檔案列印出來的170M相差不大，遠遠沒有到4G的程度。

不得不說MAT是個非常好用的工具，它可以提示你可能記憶體洩露的點:
這裡寫圖片描述
這個cachedBnsClient類有12452個例項，佔用了整個堆的61.92%。

檢視了另一個heap檔案，發現也是同樣的情況。這個地方肯定有記憶體洩露，但是也佔用了130多M，和4G相差甚遠。

檢視對應的程式碼

系統中大部分對於CachedBnsClient的呼叫，都是通過註解Autowired的，這部分例項數很少。

唯一頻繁產生此類例項的程式碼如下所示：

@Override public void fun() { BnsClient bnsClient = new CachedBnsClient(); // do something return ;}

此CachedBnsClient僅僅在方法體內使用，並沒有逃逸到外面，再看此類本身

public class CachedBnsClient { private ConcurrentHashMap<String， List<String>> authCache = new ConcurrentHashMap<String， List<String>>(); private ConcurrentHashMap<String， List<URI>> validUriCache = new ConcurrentHashMap<String， List<URI>>(); private ConcurrentHashMap<String， List<URI>> uriCache = new ConcurrentHashMap<String， List<URI>>();......}

沒有任何static變數，同時也沒有往任何全域性變數註冊自身。換言之，在類的成員(Member)中，是不可能出現記憶體洩露的。

當時只粗略的過了一過成員變數，回過頭來細想，還是漏了不少地方的。

更多資訊

由於程式碼排查下來，感覺這塊不應該出現記憶體洩露(但是事實確是如此的打臉)。這個類也沒有顯式用到堆外記憶體，而且只佔了130M，和4G比起來微不足道，還是先去追查主要矛盾再說。

使用jstack dump執行緒資訊

現場資訊越多，越能找出蛛絲馬跡。先用jstack把執行緒資訊dump下來看下。這一看，立馬發現了不同，除了正常的IO執行緒以及框架本身的一些守護執行緒外，竟然還多出來了12563多個執行緒。

"Thread-5" daemon prio=10 tid=0x00007fb79426e000 nid=0x7346 waiting on condition [0x00007fb7b5678000] java.lang.Thread.State: TIMED_WAITING (sleeping)at java.lang.Thread.sleep(Native Method)at com.xxxxx.CachedBnsClient$1.run(CachedBnsClient.java:62)

而且這些正好是執行再CachedBnsClient的run方法上面！這些特定執行緒的數量正好是12452個，和cachedBnsClient數量一致!

再次check對應程式碼

原來剛才看CachedBnsClient程式碼的時候遺漏掉了一個關鍵的點!

public CachedBnsClient(BnsClient client) { super(); this.backendClient = client; new Thread() { @Override public void run() { for (; ; ) { refreshCache(); try { Thread.sleep(60 * 1000); } catch (InterruptedException e) { logger.error("出錯"， e); } } } }

這段程式碼是CachedBnsClient的建構函式，其在裡面建立了一個無限迴圈的執行緒，每隔60s啟動一次重新整理一下里面的快取!

找到關鍵點

在看到12452個等待在CachedBnsClient.run的業務的一瞬間筆者就意識到，肯定是這邊的執行緒導致對外記憶體洩露了。下面就是根據執行緒大小計算其洩露記憶體量是不是確實能夠引起OOM了。

發現記憶體計算對不上

由於我們這邊設定的Xss是512K，即一個執行緒棧大小是512K，而由於執行緒共享其它MM單元(執行緒本地記憶體是是現線上程棧上的)，所以實際執行緒堆外記憶體佔用數量也是512K。進行如下計算:

12563 * 512K = 6331M = 6.3G

整個環境一共4G，加上JVM堆記憶體1.8G(1792M)，已經明顯的超過了4G。

(6.3G + 1.8G)=8.1G > 4G

如果按照此計算，應用應用早就被OOM了。

怎麼回事呢？

為了解決這個問題，筆者又思考了好久。如下所示:

Java執行緒底層實現

JVM的執行緒在linux上底層是呼叫NPTL(Native Posix Thread Library)來建立的，一個JVM執行緒就對應linux的lwp(輕量級程式，也是程式，只不過共享了mm_struct，用來實現執行緒)，一個thread.start就相當於do_fork了一把。

其中，我們在JVM啟動時候設定了-Xss=512K(即執行緒棧大小)，這512K中然後有8K是必須使用的，這8K是由程式的核心棧和thread_info公用的，放在兩塊連續的物理頁框上。如下圖所示:

這裡寫圖片描述
眾所周知，一個程式(包括lwp)包括核心棧和使用者棧，核心棧+thread_info用了8K，那麼使用者態的棧可用記憶體就是:

512K-8K=504K

如下圖所示:
這裡寫圖片描述
Linux實際實體記憶體對映

事實上linux對實體記憶體的使用非常的摳門，一開始只是分配了虛擬記憶體的線性區，並沒有分配實際的實體記憶體，只有推到最後使用的時候才分配具體的實體記憶體，即所謂的請求調頁。如下圖所示:
這裡寫圖片描述
檢視smaps程式記憶體使用資訊

使用如下命令，檢視

cat /proc/[pid]/smaps > smaps.txt

實際實體記憶體使用資訊，如下所示:

7fa69a6d1000-7fa69a74f000 rwxp 00000000 00:00 0 Size: 504 kBRss: 92 kBPss: 92 kBShared_Clean: 0 kBShared_Dirty: 0 kBPrivate_Clean: 0 kBPrivate_Dirty: 92 kBReferenced: 92 kBAnonymous: 92 kBAnonHugePages: 0 kBSwap: 0 kBKernelPageSize: 4 kBMMUPageSize: 4 kB7fa69a7d3000-7fa69a851000 rwxp 00000000 00:00 0 Size: 504 kBRss: 152 kBPss: 152 kBShared_Clean: 0 kBShared_Dirty: 0 kBPrivate_Clean: 0 kBPrivate_Dirty: 152 kBReferenced: 152 kBAnonymous: 152 kBAnonHugePages: 0 kBSwap: 0 kBKernelPageSize: 4 kBMMUPageSize: 4 kB

搜尋下504KB，正好是12563個，對了12563個執行緒，其中Rss表示實際實體記憶體(含共享庫)92KB，Pss表示實際實體記憶體(按比例共享庫)92KB(由於沒有共享庫，所以Rss==Pss)，以第一個7fa69a6d1000-7fa69a74f000線性區來看，其對映了92KB的空間，第二個對映了152KB的空間。如下圖所示:
這裡寫圖片描述
挑出符合條件（即size是504K）的幾十組看了下，基本都在92K-152K之間，再加上核心棧8K

(92+152)/2+8K=130K，由於是估算，取整為128K，即反映此應用平均執行緒棧大小。

注意，實際記憶體有波動的原因是由於環境不同，從而走了不同的分支，導致棧上的增長不同。

重新進行記憶體計算

JVM一開始申請了

-Xmx1792m -Xms1792m

即1.8G的堆內記憶體，這裡是即時分配，一開始就用物理頁框填充。

12563個執行緒，每個執行緒棧平均大小128K，即:

128K * 12563=1570M=1.5G的對外記憶體

取個整數128K，就能反映出平均水平。再拿這個128K * 12563 =1570M = 1.5G，加上JVM的1.8G，就已經達到了3.3G，再加上kernel和日誌傳輸程式等使用的記憶體數量，確實已經接近了4G，這樣記憶體就對應上了！(注:用於定量記憶體計算的環境是一臺記憶體用量將近4G，但還沒OOM的機器)

為什麼在物理機上沒有應用Down機

筆者登入了原來物理機，應用還在跑，發現其同樣有堆外記憶體洩露的現象，其實體記憶體使用已經達到了5個多G!幸好物理機記憶體很大，而且此應用釋出還比較頻繁，所以沒有被OOM。

Dump了物理機上應用的執行緒，
一共有28737個執行緒，其中28626個執行緒等待在CachedBnsClient上。
同樣用smaps檢視程式實際記憶體資訊，其平均大小依舊為

128K，因為是同一應用的原因

繼續進行實體記憶體計算

1.8+(28737 * 128k)/1024K =(3.6+1.8)=5.4G

進一步驗證了我們的推理。

這麼多執行緒應用為什麼沒有卡頓

因為基本所有的執行緒都睡眠在

Thread.sleep(60 * 1000);//一次睡眠60s

上。所以僅僅佔用了記憶體，實際佔用的CPU時間很少。

推薦一個交流學習群：697579751 裡面會分享一些資深架構師錄製的視訊錄影：有Spring，MyBatis，Netty原始碼分析，高併發、高效能、分散式、微服務架構的原理，JVM效能優化這些成為架構師必備的知識體系。還能領取免費的學習資源，目前受益良多：
這裡寫圖片描述

總結

查詢Bug的時候，現場資訊越多越好，同時定位Bug必須要有實質性的證據。例如記憶體洩露就要用你推測出的模型進行定量分析。在定量和實際對不上的時候，深挖下去，你會發現不一樣的風景!
這裡寫圖片描述

解Bug之路-記一次JVM堆外記憶體洩露Bug的查詢
2020-08-18
JVM記憶體洩露
使用mtrace追蹤JVM堆外記憶體洩露
2023-09-23
JVM記憶體洩露
netty 堆外記憶體洩露排查盛宴
2018-09-03
Netty記憶體洩露
從記憶體洩露、記憶體溢位和堆外記憶體，JVM優化引數配置引數
2020-12-07
記憶體洩露記憶體溢位JVM優化
分散式 | 令人頭疼的堆外記憶體洩露怎麼排查？
2022-12-16
分散式記憶體洩露
[翻譯]查詢Windows記憶體洩露的幾種方法
2018-04-20
Windows記憶體洩露
轉載 ]查詢Windows記憶體洩露的幾種方法
2018-04-19
Windows記憶體洩露
Linux是啥?我們來聊聊？
2022-10-29
Linux
JVM堆外記憶體問題排查
2018-07-15
JVM記憶體
關於JVM堆外記憶體的一切
2018-11-09
JVM記憶體
我們來聊聊命名
2018-10-08
jvm 堆記憶體
2024-11-11
JVM記憶體
記一次堆外記憶體洩漏分析
2024-06-03
記憶體
一次尋常的堆外記憶體洩漏排查
2020-11-01
記憶體
SHBrowseForFolder 記憶體洩露
2024-11-11
記憶體洩露
探索JVM的垃圾回收（堆記憶體）
2024-10-04
JVM記憶體
我們們來聊聊併發工具類Semaphore
2018-07-11
我們們來聊聊正向代理和反向代理
2018-05-18
ArkTS 的記憶體快照與記憶體洩露除錯
2024-10-29
記憶體洩露除錯
jvm 記憶體洩漏
2024-11-24
JVM記憶體
記憶體溢位和記憶體洩露
2022-11-30
記憶體溢位記憶體洩露
JVM堆記憶體詳解
2020-11-01
JVM記憶體
java中如何檢視記憶體洩露
2020-11-30
Java記憶體洩露
讓我們來聊聊前端的工程化
2022-12-14
前端
OceanBase 4.0 解讀：分散式查詢效能提升，我們是如何思考的？
2022-11-25
分散式
Lowmemorykiller記憶體洩露分析
2018-11-15
記憶體洩露
記一次堆外記憶體洩漏排查過程
2024-06-10
記憶體
我們們聊聊如何搭建開發環境？
2018-06-01
開發環境
android Handler導致的記憶體洩露
2019-03-03
Android記憶體洩露
JVM記憶體洩露(OOM)！帶你一一揭秘【第一彈】
2020-03-24
JVM記憶體洩露OOM
JVM記憶體洩露(OOM)！帶你一一揭秘【第二彈】
2020-03-25
JVM記憶體洩露OOM
如何檢查Javascript中的記憶體洩漏
2018-06-13
JavaScript記憶體
JVM原始碼分析之堆外記憶體完全解讀
2020-12-08
JVM原始碼記憶體
win10驅動記憶體洩露如何解決_win10記憶體洩露處理方法
2020-08-06
Win10記憶體洩露
JVM 堆記憶體設定原理
2018-03-03
JVM記憶體
eclipse設定JVM記憶體堆
2022-10-21
EclipseJVM記憶體
我們們聊聊艙壁模式
2018-06-27
模式
我們來聊聊Cookie、Session和Storage的那些事
2019-02-16
CookieSession

今我們們來聊聊JVM 堆外記憶體洩露的BUG是如何查詢的

前言

記憶體洩露Bug現場

查詢線索

總結

相關文章