記一次線上服務CPU 100%的處理過程

【雨歌】發表於2020-07-10

原文網址 : https://www.cnblogs.com/spec-dog/p/13278877.html

告警

正在開會，突然釘釘告警聲響個不停，同時市場人員反饋客戶在投訴系統登不進了，報504錯誤。檢視釘釘上的告警資訊，幾臺業務伺服器節點全部報CPU超過告警閾值，達100%。

趕緊從會上下來，SSH登入伺服器，使用 top 命令檢視，幾個Java程式CPU佔用達到180%，190%，這幾個Java程式對應同一個業務服務的幾個Pod（或容器）。

定位

使用 docker stats 命令檢視本節點容器資源使用情況，對佔用CPU很高的容器使用 docker exec -it <容器ID> bash 進入。
在容器內部執行 top 命令檢視，定位到佔用CPU高的程式ID，使用 top -Hp <程式ID> 定位到佔用CPU高的執行緒ID。
使用 jstack <程式ID> > jstack.txt 將程式的執行緒棧列印輸出。
退出容器，使用 docker cp <容器ID>:/usr/local/tomcat/jstack.txt ./ 命令將jstack檔案複製到宿主機，便於檢視。獲取到jstack資訊後，趕緊重啟服務讓服務恢復可用。
將2中佔用CPU高的執行緒ID使用 pringf '%x\n' <執行緒ID> 命令將執行緒ID轉換為十六進位制形式。假設執行緒ID為133，則得到十六進位制85。在jstack.txt檔案中定位到 nid=0x85的位置，該位置即為佔用CPU高執行緒的執行棧資訊。如下圖所示，

jstack

與同事確認，該處為使用一個框架的excel匯出功能，並且，匯出excel時沒有分頁，沒有限制！！！檢視SQL查詢記錄，該匯出功能一次匯出50w條資料，並且每條資料都需要做轉換計算，更為糟糕的是，操作者因為匯出時久久沒有響應，於是連續點選，幾分鐘內發起了10多次的匯出請求。。。於是，CPU被打滿，服務崩潰了，我也崩潰了。。

解決

對於此類耗資源的操作，一定要做好相應的限制。比如可以限制請求量，控制最大分頁大小，同時可以限制訪問頻率，比如同一使用者一分鐘內最多請求多少次。

再發

服務重啟後恢復。到了下午，又一臺伺服器節點CPU告警，依前面步驟定位到佔用CPU高的執行緒，如下

"GC task thread#0 (ParallelGC)" os_prio=0 tid=0x00007fa114020800 nid=0x10 runnable 

"GC task thread#1 (ParallelGC)" os_prio=0 tid=0x00007fa114022000 nid=0x11 runnable

使用命令 jstat -gcutil <程式ID> 2000 10 檢視GC情況，如圖

jstat

發現Full GC次數達到1000多次，且還在不斷增長，同時Eden區，Old區已經被佔滿（也可使用jmap -heap <程式ID>檢視堆記憶體各區的佔用情況），使用jmap將記憶體使用情況dump出來，

jmap -dump:format=b,file=./jmap.dump 13

退出容器，使用 docker cp <容器ID>:/usr/local/tomcat/jmap.dump ./ 將dump檔案複製到宿主機目錄，下載到本地，使用 MemoryAnalyzer（下載地址：https://www.eclipse.org/mat/downloads.php ）開啟，如圖

jmap-mat

如果dump檔案比較大，需要增大MemoryAnalyzer.ini配置檔案中的-Xmx值

發現佔用記憶體最多的是char[], String物件，通過右鍵可以檢視引用物件，但點開貌似也看不出所以然來，進入記憶體洩露報告頁面，如圖

mat-leak-suspects

該頁面統計了堆記憶體的佔用情況，並且給出疑似洩露點，在上圖中點開“see stacktrace”連結，進入執行緒棧頁面，

mat-thread-stack

似曾熟悉的畫面，還是跟excel匯出有關，資料太多，導致記憶體溢位。。。於是GC頻繁，於是CPU爆了。根源還是同一個。

總結

本文以處理一次線上服務CPU 100%的實戰過程示例了在遇到Java服務造成伺服器CPU消耗過高或記憶體溢位的一般處理方法，希望對大家定位線上類似問題提供參考。同時，開發實現功能時需要考慮的更深遠一些，不能停留在解決當前的場景，需要考慮資料量不斷增大時，你的實現是否還能適用。俗話說，初級程式設計師解決當前問題，中級程式設計師解決兩年後的問題，高階程式設計師解決五年後的問題，^_。

[轉載請註明出處]
作者：雨歌
歡迎關注作者公眾號：半路雨歌，檢視更多技術乾貨文章
qrcode

一次線上問題處理過程記錄
2021-12-12
記錄一次RPC服務有損上線的分析過程
2024-11-25
RPC
開會時CPU 飆升100%同事們都手忙腳亂記一次應急處理過程
2020-07-14
記一次PMML檔案的處理過程
2019-02-02
fastHttp服務端處理請求的過程
2021-02-01
ASTHTTP服務端
記一次ceph pg unfound處理過程
2021-01-26
記一次Nodejs安全工單的處理過程_20171226
2019-02-16
NodeJS
記一次linux主機中病毒處理過程
2019-01-21
Linux
一次壞塊的處理過程(一)
2019-06-20
一次壞塊的處理過程(二)
2019-02-20
記一次線上崩潰問題的排查過程
2021-11-10
線上的一次fullgc排查過程
2024-07-03
GC
記錄一次線上OOM情況排查過程
2018-05-17
OOM
Nginx部署HTTPS服務過程與異常處理實踐
2018-08-14
NginxHTTP
記錄一次資料庫CPU被打滿的排查過程
2022-08-31
資料庫
記一次FreeBSD系統中mysql服務異常的排查過程
2022-07-13
MySql
一次線上介面超時的排查過程
2019-09-28
詳述一條SQL引發的高CPU故障處理過程
2018-12-28
SQL
「日常開發」記一次因使用Date引起的線上BUG處理
2020-04-21
【SpringBoot + Tomcat】請求到達後端服務程序後的處理過程
2024-04-09
Spring BootTomcat後端
一次併發處理過程, 基於 Redis
2020-03-01
Redis
記一次12c pdb打補丁失敗處理過程
2020-09-02
一次線上問題的排查解決過程
2019-02-24
記錄一次線上資料圖源本地化操作的過程
2022-05-19
記一次Docker部署服務的爬坑歷程
2019-03-11
Docker
記一次使用 AetherUpload 影片上傳過程
2019-09-28
記一次使用 AetherUpload 視訊上傳過程
2019-09-28
記錄一次使用drissionpage上傳下載的過程
2024-06-21
一次FGC導致CPU飆高的排查過程
2020-06-01
GC
python中PCA的處理過程
2021-09-11
PythonPCA
記一次JVM FullGC引發嚴重線上事故的定位、分析、解決過程！
2022-12-08
JVMGC
記錄一次 PHP-fpm 佔 CPU 100% 修復
2020-06-03
PHP
記一次 .NET 某智慧交通後臺服務 CPU爆高分析
2022-01-28
記一次 .NET 車聯網雲端服務 CPU爆高分析
2021-05-19
Java使用javacv處理影片檔案過程記錄
2024-04-15
Java
DOM在Ahooks中的處理過程
2022-07-21
Hook
記一次線上SpringCloud-Feign請求服務超時異常排查
2022-01-13
SpringGCCloud
NFS服務搭建過程
2024-12-10
NFS

記一次線上服務CPU 100%的處理過程

告警

定位

解決

再發

總結

相關文章