記錄一次排查解決伺服器卡死的過程

泥粑發表於2024-07-12

原文網址 : https://www.cnblogs.com/enjoyall/p/18295008

前言

自己個人興趣愛好，線上有一個阿里雲伺服器，處理資料用的，會頻繁IO和分析資料。隔一段時間就會卡死（大概2個月），重啟就OK。本來沒當一回事，直到後來影響到賺取money了才引起重視。服務的啟動指令碼如下：

nohup java  -Xms512m  -Xmx1024m  -jar xxx.jar  &

當然這個指令碼是有很多問題的，畢竟自己的伺服器，追求的就是一個簡單粗暴，怎麼簡單怎麼來，沒有那麼多顧慮。但是自己埋的坑、遲早有一天哭著也要填完！

現象

突然有一天，登入伺服器發現登入不上去，xshell 類似下面的提示。看起來是連線上了，但是進不去，這種情況一般要麼是網路卡、要麼是伺服器卡，我這顯然是後者。透過阿里雲控制檯都進不去，一般這種情況等一段時間，消耗記憶體的應用會被殺掉，然後就能進去了。當然我這種急性子自然是選擇去阿里雲後臺直接強制重啟伺服器。

伺服器是能進去了，但是沒有任何日誌可供查詢，沒有堆疊資訊，檢視日誌並沒有發現oom錯誤（這裡只能一句臥槽了）。於是修改啟動指令碼如下，以便下一次有類似情況可以有痕跡可尋：

nohup java  -Xms512m  -Xmx1024m  -Xlog:gc*:file=gc.log:time,uptime,level,tags -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dumps -jar  xx.jar &

記憶體的原因，自然是要關注記憶體。一般我們需要關注一下垃圾回收器的行為以及堆記憶體使用情況。-XX:+HeapDumpOnOutOfMemoryError 以及-XX:HeapDumpPath 就是指定了當發生堆記憶體溢位的時候，轉儲當時的記憶體檔案供我們後續分析（其實觀察到記憶體開銷持續上漲，回收效果不明顯，就可以用這個命令導來匯出堆記憶體檔案分析:jamp -dump:live,format=b,file=xxx.hprof）。終於是在某一天（2個月後），發現了OOM錯誤，如下所示。

這就很離譜了，上次我卡死直接強制重啟了，nohup.out檔案並沒有看到OOM錯誤的日誌，但是這次為啥出現OOM錯誤日誌了。這個問題現在我都沒搞清楚為什麼，伺服器是2G記憶體，啟動指令碼堆最大1G記憶體，完全夠用哇，講道理不可能消耗完伺服器記憶體。難道程式碼還有IO等記憶體洩漏？先不管了，先解決眼前的問題。既然是OOM錯誤，自然是要看是哪個例項佔用了記憶體，使用MAT分析一下。（PS: JHAT 無異於大海撈針，因為類太多，他又不能把較大記憶體的排序，然後OQL又不能支援萬用字元，就無解，還是MAT香）。MAT分析報告如下：

可以看到有一個大物件佔用記憶體692.4M ，這基本可以鎖定這個問題就出現在這個物件上了。然後再查其中有一個屬性，是一個靜態成員變數map，如圖所示有6291456個key。結合程式碼看該變數會被業務資料依據具體情況，填充進資料，但是並沒有釋放的地方，so 這就是問題所在了。

解決

我這裡就是簡單粗暴的定時清理一下記憶體，如下所示。

因為要很久才出現OOM，所以這個程式碼能用，但卻是不優雅的。奈何自己的專案隨便弄的，寫成了屎山程式碼，不太好改，畢竟有一句話說的好： If your code runs in some inexplicable way, don't touch it anymore。否則將會是面對如下所示的殘酷：

後話

文中有提到設定了-Xmx1024m 但是實際導致伺服器2G記憶體卡死，可能存在的記憶體洩漏問題，先在啟動指令碼加上引數-XX:MaxDirectMemorySize=256M，控制一下本地記憶體，後續如果再次出現OOM 了，在繼續^-。

nohup java  -Xms512m  -Xmx1024m  -Xlog:gc*:file=gc.log:time,uptime,level,tags -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dumps -XX:MaxDirectMemorySize=256M -jar  xx.jar &

大家不偷懶的話，gc日誌引數，堆記憶體匯出，這些最好都設定好！

記錄一次記憶體洩漏排查過程
2023-11-06
記憶體
記錄一次Flink作業異常的排查過程
2020-06-17
一次線上問題的排查解決過程
2019-02-24
記錄一次線上OOM情況排查過程
2018-05-17
OOM
記錄一次資料庫CPU被打滿的排查過程
2022-08-31
資料庫
解Bug之路-記一次儲存故障的排查過程
2020-10-14
記一次記憶體溢位問題的排查、分析過程及解決思路
2020-09-20
記憶體溢位
記錄一次K8s pod被殺的排查過程
2024-01-05
K8S
【Ubuntu】記一次伺服器被礦工光顧的排查過程
2019-07-03
Ubuntu伺服器
記一次OOM問題排查過程
2019-11-22
OOM
詳細記錄一次npm i canvas報錯的解決過程
2019-02-08
NPMCanvas
記一次"記憶體洩露"排查過程
2019-10-15
記憶體洩露
記一次 Composer 問題的解決過程！！
2018-08-07
記一次asp.net 8 伺服器爆滿的解決過程
2024-05-18
ASP.NET伺服器
記錄一個前端bug的解決過程
2019-02-28
前端
Oracle儲存過程編譯卡死的解決方法
2020-11-15
Oracle儲存過程編譯
記一次使用windbg排查記憶體洩漏的過程
2020-05-31
記憶體
一次奇怪的的bug排查過程
2021-11-30
記一次線上崩潰問題的排查過程
2021-11-10
記一次排查Flutter中預期外rebuild的過程
2021-06-01
FlutterRebuild
Oracle 編譯儲存過程卡死解決方法
2019-04-22
Oracle編譯儲存過程
記一次堆外記憶體洩漏排查過程
2024-06-10
記憶體
解Bug之路-記一次中介軟體導致的慢SQL排查過程
2020-09-07
SQL
記錄一次Dataguard的修復過程
2018-06-16
記錄一次CentOS/Linux下安裝vsftp伺服器的過程
2024-08-02
CentOSLinuxFTP伺服器
線上的一次fullgc排查過程
2024-07-03
GC
【原創】記錄一次Tomcat總是載入舊專案的解決過程
2024-06-24
Tomcat
一次排查Java專案記憶體洩漏的過程
2018-08-17
Java記憶體
記一次透過Memory Analyzer分析記憶體洩漏的解決過程
2020-06-22
記憶體
記錄一次木馬排查
2022-02-12
記錄一次問題排查
2021-08-02
排查Mysql突然變慢的一次過程
2020-08-07
MySql
記一次bug解決過程(數字轉化成中文)
2018-11-15
core dump如何解決排查的過程
2024-08-22
一次線上介面超時的排查過程
2019-09-28
一次JVM GC長暫停的排查過程！
2023-04-06
JVMGC
一次JVM GC長暫停的排查過程
2023-01-12
JVMGC
一次 Java 記憶體洩漏排查過程，漲姿勢
2021-09-09
Java記憶體

記錄一次排查解決伺服器卡死的過程

前言

現象

解決

後話

相關文章