做JAVA開發的同學一定遇到過的爆表問題，看這裡解決

騰訊雲加社群發表於2018-10-11

原文網址 : https://juejin.im/post/5bbf18a2f265da0adb30f3b5

Java

歡迎大家前往騰訊雲+社群，獲取更多騰訊海量技術實踐乾貨哦~

本文由淨地發表於雲+社群專欄

記一次Java線上伺服器CPU過載問題的排查過程，詳解排查過程中用到的Java效能監測工具：jvisualvm、jstack、jstat、jmap。

背景：Java線上服務執行一週後，某個週六晚上CPU使用率突然持續99%，Java程式處於假死狀態，不響應請求。秉著先恢復服務再排查問題的原則，在我連線VPN採用重啟大法後，CPU使用率恢復正常，服務也正常響應了，如下圖一所示：

（圖一）CPU使用率圖

但是，當晚的併發量也沒有比平時高出許多，為什麼會突然出現這種CPU爆表的情況？帶著這個疑問，我走上了問題排查的道路。

首先，我查了相關的錯誤日誌，發現故障的時間段內有大量的ckv請求超時，但請求超時並不是ckv server的問題，而是ckv client的請求並沒有發出去。那麼，為什麼ckv client的請求沒有發出去呢？日誌並沒有提供更多的資訊給我。

於是，我在Java服務上開啟了JMX，本地採用jvisualvm來觀察Java程式執行時的堆疊記憶體、執行緒使用情況。JMX（Java Management Extensions，即Java管理擴充套件）是Java平臺上為應用程式、裝置、系統等植入管理功能的框架；jvisualvm是JDK內建的效能分析工具，位於JDK根目錄的bin資料夾下面，它可以通過JMX從Java程式獲取執行時的實時資料，從而進行動態的效能分析，如圖二所示：

（圖二）jvisualvm

通過觀察Heap記憶體的使用情況，發現其是緩慢增加的，每隔一小段時間被GC回收，圖形呈鋸齒狀，似乎沒有什麼問題；Threads也沒有存在死鎖的問題，執行緒執行良好；在Sampler檢視Thread CPU Time的時候發現，log4j的非同步日誌執行緒佔用的CPU時間是最多的。於是，初步懷疑這是log4j的鍋。接著，我對專案程式碼進行了review，發現某些介面列印了大量的無用日誌，日誌級別使用也不規範。最後，我對專案的日誌進行了整體的梳理，優化後釋出上線，並繼續觀察。

我本以為問題已經解決了。然而，幾天後又出現了CPU爆表的情況，這時，我才發現自己錯怪了log4j。與上次爆表的情況不同，這次我在公司（表示很淡定），於是我機智地保留了一臺機器來做觀察，其他機器做重啟處理。現在，要開始我的表演了，具體如下：

（1）登陸機器，用 top 命令檢視程式資源佔用情況。不出所料，Java程式把CPU撐爆了，如下圖三所示：

（圖三）程式資源佔用情況

（2）Java程式把CPU都佔用完了，那麼具體是程式內的哪些執行緒佔用的呢？於是，我用了 top -H -p6902 （6902是Java程式的PID）命令找出了具體的執行緒資源佔用情況，如下圖四所示：

（圖四）Java執行緒資源佔用情況

圖四中的PID為Java執行緒的id，可以看到id為6904、6905、6906、6907這四個執行緒基本把CPU資源全部吃完了。

（3）現在，我們已經拿到耗盡CPU資源的執行緒id了。這時，我們就可以使用jstack來查詢這些id對應的具體執行緒堆疊資訊了。jstack是JDK內建的堆疊跟蹤工具，位於JDK根目錄的bin資料夾下面，可用於列印的Java堆疊資訊。我用命令 jstack 6902 > jstack.txt （6902是Java程式的PID）列印出了Java程式的堆疊資訊放到jstack.txt檔案了；由於堆疊列印的執行緒的native id是十六機制的，所以，我把十進位制的執行緒id（6904、6905、6906、6907）轉化成十六進位制（0x1af8、0x1af9、0x1afa、0x1afb）；最後，通過 cat jstack.txt | grep -C 20 0x1af8 命令找到了具體的執行緒資訊，如下圖五所示：

（圖五）執行緒堆疊資訊

通過圖五可以發現，把CPU佔滿的執行緒是GC的執行緒，Java的垃圾回收把CPU的資源耗盡了。

（4）現在，我們已經定位到是GC的問題了。那麼，我們就來看看GC的回收情況，我們可以通過jstat來觀察。jstat是JDK內建的JVM檢測統計工具，位於JDK根目錄的bin資料夾下面，可以對堆記憶體的使用情況進行實時統計。我使用了命令 jstat -gcutil 6902 2000 10 （6902是Java程式的PID）來觀察GC的執行資訊，如下圖六所示：

（圖六）GC執行資訊

通過圖六可以知道，E（Eden區）跟O（Old區）的記憶體已經被耗盡了，FGC（Full GC）的次數高達6989次，FGCT（Full GC Time）的時間高達36453秒，即平均每次FGC的時間為：36453/6989 ≈ 5.21秒。也就是說，Java程式都把時間花在GC上了，所以就沒有時間來處理其他事情。

（5）GC出現圖六的這種情況，基本可以確認是在程式中存在記憶體洩露的問題。那麼，如何確定是哪些程式碼導致的這個問題呢？這時候，我們就可以使用jmap檢視Java的記憶體佔用資訊。jmap是JDK內建的記憶體對映工具，位於JDK根目錄的bin資料夾下面，可用於獲取java程式的記憶體對映資訊。通過命令 jmap -histo 6902 （6902是Java程式的PID）列印出了Java的記憶體佔用資訊，如下圖七所示：

（圖七）Java記憶體佔用資訊

由圖七可以得到，佔用記憶體資源的TOP10類（[C 是指char[]，String類內部使用char[]來儲存資料）的名稱、例項數以及佔用記憶體大小（單位：byte），於是問題排查就變得非常簡單了。最後，通過review程式碼確定了問題所在：

部分介面使用到了L5QOSPacket這個L5的工具類沒有做單例，每次請求介面都會生成一個新的例項，浪費了大量的記憶體。
程式碼裡邊用到的一個第三方提供的QcClient客戶端存在記憶體洩露問題，程式碼中不恰當地new了大量的物件，而且對儲存在ConcurrentHashMap的資料沒有做清除清理，從而導致資料一直累計，記憶體佔用持續增加。

解決以上兩個問題後，Heap記憶體的佔用維持在2.5G左右，已經沒有持續增長的跡象了，業務已正常執行。

以上就是我排查問題的整個過程，以及在這個過程中用到的一些Java效能監測工具。除了本文提及的jvisualvm、jstack、jstat、jmap這些工具，在JDK根目錄的bin資料夾下面還有其他許多非常有用的工具，例如：使用 jinfo 檢視Java程式相關資訊，感興趣的童鞋可以去研究下。

相關閱讀

WCF系列教程之WCF服務配置

php非同步執行

黑客用Python：檢測並繞過Web應用程式防火牆

【每日課程推薦】機器學習實戰！快速入門線上廣告業務及CTR相應知識

此文已由作者授權騰訊雲+社群釋出，更多原文請點選

搜尋關注公眾號「雲加社群」，第一時間獲取技術乾貨，關注後回覆1024 送你一份技術課程大禮包！

海量技術實踐經驗，盡在雲加社群！

Idea裡開發遇到所有專案的所有程式碼爆紅的問題與解決
2024-03-14
Idea
Android開發過程中遇到的問題以及解決辦法 how to
2024-07-08
Android
遇到問題的解決方法
2020-12-30
workerman開發過程中遇到的一些常見的問題與解決方法
2021-12-03
Flutter開發過程中遇到的問題記錄
2021-03-02
Flutter
你遇到過的相容性問題以及解決辦法
2019-04-17
玩Deno遇到問題的解決方案
2018-06-02
皮膚開發過程中遇到的3個問題
2018-10-11
學習vue過程中遇到的問題
2021-08-13
Vue
搭建Laravel Sail開發環境遇到的版本不匹配問題解決方法
2021-08-25
LaravelAI開發環境
nodejs 近期所遇到的問題及解決
2020-12-13
NodeJS
學習Java中遇到的繼承問題
2019-02-08
Java繼承
初學者遇到的問題：javac命令找不到檔案HelloWorld.java的解決辦法。
2021-01-05
Java
Composer 使用過程中遇到的問題和解決方案
2020-05-12
GO Modules的理解和遇到的問題解決方法
2021-06-25
Go
Idea開發JAVA過程中遇到的錯誤集合以及解決方法，持續更新
2020-12-08
IdeaJava
近期工作遇到的問題及解決方式收藏
2018-12-12
解決macbook安裝burp suite遇到的問題
2024-07-13
MacUI
請教一個技術問題，又沒有人遇到過這樣的需求？求分享解決方案
2022-08-16
oracle 11.2.0.4 DataGuard Broker配置過程中可能遇到的問題及解決方法
2018-04-16
Oracle
基於CodeMirror開發線上編輯器時遇到的問題及解決方案
2024-05-02
教育直播平臺開發過程中，這些技術問題需要解決
2020-11-02
React開發中遇到的問題總結
2018-05-03
React
開發以太坊遇到的幾個問題
2018-03-02
面試遇到做過的題怎麼辦？
2019-02-20
面試
[看世界]你遇到過的產品經理，做過多少實事？
2021-05-25
Vue中的EventBus使用時你遇到過這個問題嗎？？？
2018-04-14
Vue
部署專案遇到的mysql問題以及解決方法
2019-03-15
MySql
div拖動遇到iframe卡頓的問題解決
2020-10-15
使用nodeAPI時遇到非同步問題的解決方法
2023-03-03
API非同步
小白記錄Java後端學習遇到的問題
2024-07-12
Java後端
記錄在使用Django開發過程中遇到的問題No.2
2020-11-06
Django
初學javaweb遇到的問題
2024-10-20
JavaWeb
想知道微信怎麼做指紋支付開發？看這裡！
2018-04-03
剛開始學習nlp時遇到的問題
2018-07-04
模仿今日頭條app開發遇到的問題
2019-02-28
APP
直播系統開發遇到的三大問題
2018-07-25
munium學習過程中問題解決
2024-05-30

做JAVA開發的同學一定遇到過的爆表問題，看這裡解決

相關文章