記一次堆外記憶體洩漏排查過程

MartinDai發表於2024-06-10

原文網址 : https://www.cnblogs.com/martindai/p/18240752

記憶體

本文涉及以下內容

開啟NMT檢視JVM記憶體使用情況
透過pmap命令檢視程序實體記憶體使用情況
smaps檢視程序記憶體地址
gdb命令dump記憶體塊

背景

最近收到運維反饋，說有專案的一個節點的RSS已經是Xmx的兩倍多了，因為是ECS機器所以專案可以一直執行，幸虧機器記憶體充足，不然就可能影響到其他應用了。

排查問題

透過跳板機登入到目標機器，執行top命令，再按c，看到對應的程序所佔用的RES有8個多G（這裡當時忘記截圖了），但是實際上我們配置的Xmx只有3G，而且程式還是正常執行的，所以不會是堆佔用了這麼多，於是就把問題方向指向了非堆的記憶體。

首先想到透過Arthas檢視記憶體分佈情況，執行dashboard命令，檢視記憶體分佈情況

發現堆和非堆的記憶體加起來也就2個G不到，但是這裡看到的非堆只包含了code_cache和metaspace的部分，那有沒有可能是其他非堆的部分有問題呢？

NMT

NMT是Native Memory Tracking的縮寫，是Java7U40引入的HotSpot新特性，開啟後可以透過jcmd命令來對JVM記憶體使用情況進行跟蹤。注意，根據Java官方文件，開啟NMT會有5%－10%的效能損耗。

-XX:NativeMemoryTracking=[off | summary | detail]  
# off: 預設關閉 
# summary: 只統計各個分類的記憶體使用情況.
# detail: Collect memory usage by individual call sites.

新增-XX:NativeMemoryTracking=detail命令到啟動引數中，然後重啟專案

跑了一段時間後top看了下程序的RES，發現已經5個多G了

執行jcmd <pid> VM.native_memory summary scale=MB

從圖中可以看到堆和非堆的總使用記憶體（committed）也就2G多，那還有3個G的記憶體去哪裡了呢

pmap

pmap命令是Linux上用來開程序地址空間的

執行pmap -x <pid> | sort -n -k3 > pmap-sorted.txt命令可以根據實際記憶體排序

檢視pmap-sorted.txt檔案，發現有大量的64M記憶體塊

難道是linux glibc 中經典的 64M 記憶體問題？之前看挖坑的張師傅寫過一篇文章（一次 Java 程序 OOM 的排查分析（glibc 篇））講過這個問題，於是準備參考一下排查思路

嘗試設定環境變數MALLOC_ARENA_MAX=1，重啟專案，跑了一段時間以後，再次執行pmap命令檢視記憶體情況，發現並沒有什麼變化，看來並不是這個原因，文章後面的步驟就沒有什麼參考意義了。

smaps + gdb

既然可以看到有這麼多異常的記憶體塊，那有沒有辦法知道里面存的是什麼內容呢，答案是肯定的。經過一番資料查閱，發現可以透過gdb的命令把指定地址範圍的記憶體塊dump出來。

要執行gdb的dump需要先知道一個地址範圍，透過smaps可以輸出程序使用的記憶體塊詳細資訊，包括地址範圍和來源

cat /proc/<pid>/smaps > smaps.txt

檢視smaps.txt，找到有問題的記憶體塊地址，比如下圖中的 7fb9b0000000-7fb9b3ffe000

啟動gdb

gdb attach <pid>

dump指定記憶體地址到指定的目錄下，引數的地址需要在smaps拿到地址前加上0x

dump memory /tmp/0x7fb9b0000000-0x7fb9b3ffe000.dump 0x7fb9b0000000 0x7fb9b3ffe000

顯示長度超過10字元的字串

strings -10 /tmp/0x7fb9b0000000-0x7fb9b3ffe000.dump

發現裡面有大量的圖中紅框中的內容，這個內容是後端給前端websocket推送的內容，怎麼會駐留在堆外記憶體裡面呢？檢查了專案程式碼發現，後端的websocket是使用的netty-socketio實現的，maven依賴為

<dependency>
 <groupId>com.corundumstudio.socketio</groupId>
 <artifactId>netty-socketio</artifactId>
 <version>1.7.12</version>
</dependency>

這是一個開源的socket.io的一個java實現框架，具體可以看

https://github.com/mrniko/netty-socketio

看了下最近的版本釋出日誌，發現這個框架的最新版本已經是1.7.18，而且中間釋出的幾個版本多次修復了記憶體洩漏相關的問題

於是把依賴版本升級到最新版，重新發布後，第二天在看，發現RES還是變得很高

中間又仔細看了使用框架的相關程式碼，發現斷開連線的時候沒有呼叫leaveRoom方法，而是呼叫了joinRoom，導致群發資訊的時候還會往斷開的連線裡面傳送資料（理論上會報錯，但是沒有看到過相關日誌），修復程式碼後又重新發布了一版，跑了一天在看，依然沒有效果。

結論

到這一步可以確認的是記憶體洩漏的問題肯定跟這個websocket及相關功能有關的（因為中間升級到1.7.18發現websocket連不上了，後來降到了1.7.17，期間有較長的時間是沒有暴露websocket服務的，而正好這段時間的RES是非常穩定的，完全沒有上漲的趨勢，因為這個功能點比較小，使用者沒有什麼感知），最後，經過跟產品方面溝通，決定把這裡的websocet去掉，改為前端直接請求介面獲取資料，因為這裡的功能就是為了實時推送一個未讀資訊數量，而這個資訊其實很少有使用者關心，所以，就改成重新整理頁面的時候查詢一下就行了，就這樣，問題算是變相解決了😁。至於這個問題的具體原因還是沒有找到，可能是框架BUG，也可能是程式碼使用問題，後面需要重度依賴websocket的時候或許會基於netty自己寫一套，這樣比較可控一點。

總結

雖然經過這麼多的努力，最終只是證明了【沒有需求就沒有BUG】這句話，但是中間還是有挺多的收穫的，很多命令也是第一次使用，中間還有一些曲折，就沒有一一寫出來了，挑選了一些比較有價值的過程寫了這篇文章總結，希望可以分享給有需要的人，以後遇到類似問題，可以做個經驗參考。

感謝

這次排查問題從網上查詢學習了很多資料，非常感謝以下文章作者分享的經驗

一次 Java 程序 OOM 的排查分析（glibc 篇）
JAVA堆外記憶體排查小結
Linux中使用gdb dump記憶體

記一次堆外記憶體洩漏分析
2024-06-03
記憶體
記一次使用windbg排查記憶體洩漏的過程
2020-05-31
記憶體
一次排查Java專案記憶體洩漏的過程
2018-08-17
Java記憶體
記一次"記憶體洩露"排查過程
2019-10-15
記憶體洩露
記錄一次記憶體洩漏排查過程
2023-11-06
記憶體
一次尋常的堆外記憶體洩漏排查
2020-11-01
記憶體
netty 堆外記憶體洩露排查盛宴
2018-09-03
Netty記憶體洩露
一次 Java 記憶體洩漏的排查
2020-03-15
Java記憶體
Spring Boot引起的“堆外記憶體洩漏”排查及經驗總結
2019-01-04
Spring Boot記憶體
記一次 Java 應用記憶體洩漏的定位過程
2020-06-03
Java記憶體
java 堆外記憶體排查
2024-06-12
Java記憶體
記一次 Ruby 記憶體洩漏的排查和修復
2019-04-03
記憶體
redisson記憶體洩漏問題排查
2024-09-24
Redis記憶體
一波三折！記一次非堆記憶體洩漏(CXF+Jackson)的排查
2022-11-23
記憶體
記一次透過Memory Analyzer分析記憶體洩漏的解決過程
2020-06-22
記憶體
一次 Java 記憶體洩漏排查過程，漲姿勢
2021-09-09
Java記憶體
一次Kafka記憶體洩露排查經過
2022-02-16
Kafka記憶體洩露
JAVA堆外記憶體排查小結
2019-03-31
Java記憶體
JVM堆外記憶體問題排查
2018-07-15
JVM記憶體
記一次 .NET 某外貿Web站記憶體洩漏分析
2021-09-09
Web記憶體
記一則伺服器記憶體洩漏解決過程
2020-11-18
伺服器記憶體
分散式 | 令人頭疼的堆外記憶體洩露怎麼排查？
2022-12-16
分散式記憶體洩露
記一次使用 laravel-s 記憶體洩漏
2022-01-08
Laravel記憶體
js記憶體洩漏
2019-02-16
JS記憶體
Android記憶體洩漏
2018-03-11
Android記憶體
Android 記憶體洩漏
2020-11-19
Android記憶體
jvm 記憶體洩漏
2024-11-24
JVM記憶體
Java記憶體洩漏
2020-12-06
Java記憶體
分析記憶體洩漏和goroutine洩漏
2021-10-22
記憶體Go
記憶體洩漏與排查流程——安卓效能優化
2019-01-07
記憶體安卓優化
解Bug之路-記一次JVM堆外記憶體洩露Bug的查詢
2020-08-18
JVM記憶體洩露
【記憶體洩漏和記憶體溢位】JavaScript之深入淺出理解記憶體洩漏和記憶體溢位
2024-11-06
記憶體溢位JavaScript
記憶體洩漏的原因
2018-07-10
記憶體
valgrind 記憶體洩漏分析
2021-05-17
記憶體
JVM——記憶體洩漏與記憶體溢位
2020-10-10
JVM記憶體溢位
一次glide記憶體洩漏排查分析
2024-05-10
IDE記憶體
[譯] Swift：通過示例避免記憶體洩漏
2019-02-18
Swift記憶體
記憶體洩漏的定位與排查：Heap Profiling 原理解析
2021-11-23
記憶體

記一次堆外記憶體洩漏排查過程

背景

排查問題

NMT

pmap

smaps + gdb

結論

總結

感謝

相關文章