深入理解JVM（七）——效能監控工具

飄揚的紅領巾發表於2017-09-01

前言

工欲善其事必先利其器，效能優化和故障排查在我們大都數人眼裡是件比較棘手的事情，一是需要具備一定的原理知識作為基礎，二是需要掌握排查問題和解決問題的流程、方法。本文就將介紹利用效能監控工具，幫助開發者更快更準的找到問題產生的根源。本文分為三部分，第一部分將介紹在Linux環境下的常用監控工具，第二部分介紹Windows環境下的監控工具，第三部分將通過一個案例，介紹利用這些監控工具一步一步找出java應用程式的問題。

Linux環境下的監控工具

需要先宣告的是，下面介紹的部分工具其實在Liunx環境、Windows環境下都可以使用，只不過在不同的環境下使用什麼工具更合適。

下面我們想象這麼一個場景：有一天運維人員看到生產環境下的伺服器負載升高、CPU飆升，記憶體佔用增大，請問接下來他該怎麼辦？可能有人會說，那就找到負載升高、CPU飆升。。的原因啊，如果是應用程式造成的就把它kill掉。如果採用這種方法，問題可能會短時間解決，但帶來的問題是應用在一段時間不可用，並且我們沒有找到問題發生的根源，下次重啟後，問題依然會產生。那麼如果出現類似的問題，嚴格的排查流程是怎樣的呢？在回答這個問題之前，我們先了解一下Linux上常用的幾個監控工具：

uptime

[root@centos7_template ~]# uptime 10:31:42 up 4 days, 1:01, 1 user,load average: 0.02, 0.02, 0.05

10:31:42    //當前系統時間
up 4 days, 1:01 //持續執行時間,時間越大，說明你的機器越穩定。 
1 user  //使用者連線數，是總連線數而不是使用者數 
load average: 0.02, 0.02, 0.05  //系統平均負載，統計最近1，5，15分鐘的系統平均負載

該命令將顯示目前伺服器持續執行的時間，以及負載情況。

通過這個命令，可以最簡便的看出系統當前基本狀態資訊，這裡面最有用是負載指標，如果你還想檢視當前系統的CPU/記憶體以及相關的程式狀態，可以使用TOP命令。

TOP

通過TOP命令可以詳細看出當前系統的CPU、記憶體、負載以及各程式狀態（PID、程式佔用CPU、記憶體、使用者）等。從上面的結果看出該系統上安裝了MySQL、java，可以看到他們各自的程式ID，假如這時Java程式佔用較高的CPU和記憶體，那麼你就要留心了，如果程式中沒有計算量特別大、佔用記憶體特別多的程式碼，可能你的java程式出現了未知的問題，可以根據程式ID做進一步的跟蹤。除了通過TOP命令找到程式資訊以外，還可以通過jdk自帶的工具JPS直接找到java程式的程式號。

JPS

可以看到jps命令直接羅列出了當前系統中存在的java程式，這裡第一個是jps命令自己的java程式，而另外一個是我啟動的nosql監控工具程式。通過這種方法查詢到java程式的程式ID後，可以進一步通過：

top -p 3618 // 這裡的3618就是上面查詢到的java程式的程式ID

通過此方法可以準確的檢視指定java程式的CPU/記憶體使用情況。

除此之外，vmstat命令也可以檢視系統CPU/記憶體、swap、io等情況：

上面的命令每隔1秒取樣一次，一共取樣四次。CPU佔用率很高，上下文切換頻繁，說明系統有執行緒正在頻繁切換，這可能是你的程式開啟了大量的執行緒存在資源競爭的情況。另外swap也是值得關注的指標，如果swpd過高則可能系統能使用的實體記憶體不足，不得不使用交換區記憶體，還有一個例外就是某些程式優先使用swap，導致swap飆升，而實體記憶體還有很多空餘，這些情況是需要注意的。

檢視系統指標，還有一個第三方工具：pidstat，這個工具還是很好用的，需要先安裝：

yum install sysstat

該命令監控程式id為3618的CPU狀態，每隔1秒取樣一次，一共取樣四次。“%CPU”表示CPU使用情況，“CPU”則表示正在使用哪個核的CPU，這裡為0表示正在使用第一個核。如果還要顯示執行緒ID，則可以使用：

pidstat -p 3618 -u -t 1 4

如果要監控磁碟讀寫情況，這可以使用：

pidstat還有其他的引數，可以通過pidstat --help獲取，再次不再贅述。

下面再介紹幾個JDK自帶有用的工具：jps、jstat、jmap、jstack。

jps：上面我們已經使用過了，他可以羅列出目前再伺服器上執行的java程式及程式ID；

jstat：用於輸出java程式記憶體使用情況，包括新生代、老年代、後設資料區容量、垃圾回收情況。

上述命令輸出程式ID為3618的記憶體使用情況（每2000毫秒輸出一次，一共輸出20次）

S0：倖存1區當前使用比例
S1：倖存2區當前使用比例
E：伊甸園區使用比例
O：老年代使用比例
M：後設資料區使用比例
CCS：壓縮使用比例
YGC：年輕代垃圾回收次數
FGC：老年代垃圾回收次數
FGCT：老年代垃圾回收消耗時間
GCT：垃圾回收消耗總時間

jmap：用於輸出java程式中記憶體物件的情況，包括有哪些物件，物件的數量。

jmap -histo 3618

上述命令列印出程式ID為3618的記憶體情況。但我們常用的方式是將指定程式的記憶體heap輸出到外部檔案，再由專門的heap分析工具進行分析,例如mat（Memory Analysis Tool），所以我們常用的命令是：

jmap -dump:live,format=b,file=heap.hprof 3618

將heap.hprof傳輸出來到window電腦上使用mat工具分析：

jstack：使用者輸出java程式執行緒棧的情況，常用於定位因為某些執行緒問題造成的故障或效能問題。

jstack 3618 > jstack.out

上述命令將程式ID為3618的棧資訊輸出到外部檔案，便於傳輸到windows電腦上進行分析。

Windows環境下的監控工具

Windows環境下的監控工具也有很多，但是本文主要推薦jvisualvm.exe、MemoryAnalyzer.exe，有了他們其他工具幾乎不需要了。

jvisualvm.exe在JDK安裝目錄下的bin目錄下面，雙擊即可開啟。

雙擊左側你需要監控的java程式即可對它進行監控，這個工具包括對CPU、記憶體、執行緒、類都做了監控，功能非常強大，上文中介紹的所有功能，其他在這個工具上都已經有了。當然怎麼用、如何分析它需要花時間去一點點積累。

MemoryAnalyzer.exe：上文我們已經提到，常用於分析記憶體堆使用情況，也是非常強大的工具。詳細使用方法，這裡就不再贅述，可以下載下來嘗試一下。

上述介紹了基於Linux、Windows環境的監控工具，有了這些工具我們就要利用他們做對應的事情，下面將通過一個簡單的案例，說明如何使用他們。

案例分析

首先通過上述的介紹，我們對故障排查流程應該有了一個印象，這裡先梳理出來：

案例：

一個java應用啟動以後，使用人員發現應用不可用，針對該現象我們做以下分析排查：

1、首先檢視伺服器上的應用狀態。使用jps命令查詢當前在執行中的java程式：

這裡程式ID為6400的java應用就是我們剛啟用的，說明應用並沒有掛掉，還在執行中。

2、通過程式ID查詢所佔用的CPU、記憶體以及當前負載情況,top -p 6400。

從以上結果看出該應用並沒有引起系統負載過高，CPU、記憶體也沒有出現異常情況。

3、通過上述結果我們推測因為記憶體原因引起的故障可效能較小，所以我們優先排查執行緒棧，使用jstack命令，匯出執行緒棧。

jstack 6400 > stack.out

我們將該檔案傳輸出來便於檢視。

檢視執行緒棧可以看出，主執行緒處於執行狀態，而子執行緒ThreadA、ThreadB、ThreadC、ThreadD一邊在等待一個鎖，同時又持有另外一個鎖，其實看到這裡我們基本推斷該應用程式存在死鎖，因此造成執行緒等待，應用不可用。通過以上棧的資訊，我們就可以到程式程式碼中詳細檢視程式碼了，並且修改bug解決此問題。

死鎖原理補充：

如圖所示，造成死鎖的原因是執行緒之間存在相互制約的情況，而任一執行緒都無法繼續執行。

小結

本文介紹了Linux、Windows環境下常用的監控工具，最後通過一個案例簡單說明故障排查的流程，怎麼使用監控工具找出應用故障的原因。

深入理解JVM：效能分析與監控工具
2020-12-29
JVM
深入理解JVM（③）虛擬機器效能監控、故障處理工具
2020-06-22
JVM虛擬機
JVM系列(七) – JVM線上監控工具
2019-03-01
JVM
JVM系列(七) - JVM線上監控工具
2018-08-12
JVM
深入理解前端效能監控
2019-04-08
前端
☕[JVM效能專題]（1）效能監控-命令列工具
2021-06-16
JVM命令列
JVM學習筆記---伺服器，JVM效能監控工具
2018-09-24
JVM筆記伺服器
深入理解Java虛擬機器之效能監控與故障處理工具
2019-01-24
Java虛擬機
【JVM進階之路】八：效能監控工具-命令列篇
2021-04-03
JVM命令列
深入理解JVM效能調優
2018-07-02
JVM
Linux 效能監控工具
2024-05-03
Linux
JVM(4)-虛擬機器效能監控與故障處理工具
2019-03-25
JVM虛擬機
深入理解虛擬機器之虛擬機器效能監控和故障處理工具
2019-02-28
虛擬機
效能測試之JVM的監控Grafana
2020-11-12
JVMGrafana
Centos效能監控工具——netdata配置
2023-03-31
CentOS
深入理解 JVM
2019-08-29
JVM
深入理解JVM
2021-06-01
JVM
prometheus JVM監控
2024-05-10
PrometheusJVM
JVM監控工具：jps、jstat、jinfo、jmap、jhat、j
2021-09-09
JVMJS
Flutter效能監控工具（3）--- Observatory使用
2019-01-28
Flutter
ios 手機app效能監控工具
2024-08-13
iOSAPP
UAVStack功能上新：新增JVM監控分析工具
2019-10-15
JVM
深入理解JVM——物件
2020-01-07
JVM物件
Flutter效能監控工具（1）--- Observatory簡介
2019-01-27
Flutter
效能監控工具之Grafana+Prometheus+Exporters
2021-06-12
GrafanaPrometheusExport
效能測試監控工具--Jmeter + Grafana + InfluxDB
2021-01-07
JMeterGrafanaUX
Arthas JVM 監控器
2021-01-01
JVM
[譯]深入理解JVM Understanding JVM Internals
2020-06-03
JVM
理解JVM（七）：垃圾回收器
2018-06-29
JVM
JVM調優——JVM監控工具jvisualvm的使用及GC外掛安裝
2022-02-18
JVMLVMGC
Windows 2003自帶效能監控工具的使用
2018-06-27
Windows
Jmeter系列（38）- 詳解效能監控工具 nmon
2020-07-07
JMeter
[java]深入剖析Java效能監控調優視訊教程
2018-07-31
Java
遠端監控Springboot JVM
2018-12-15
Spring BootJVM
前端效能監控
2019-04-03
前端
php效能監控
2022-02-17
PHP
深入理解Prometheus: Kubernetes環境中的監控實踐
2024-06-27
Prometheus
深入理解JVM虛擬機器6：深入理解JVM類載入機制
2019-11-13
JVM虛擬機
深入理解JVM（一）JVM記憶體模型
2018-06-15
JVM記憶體模型

深入理解JVM（七）——效能監控工具

相關文章