前言

在實際開發中，有時候會收到一些服務的監控報警，比如CPU飆高，記憶體飆高等，這個時候，我們會登入到伺服器上進行排查。本篇部落格將涵蓋這方面的知識：Linux效能工具。

一次線上問題排查模擬

背景：服務在平穩執行一段時間後，CPU突然飆高。

top

通過top命令，可以確認下，到底是哪個程式導致CPU飆高了（也許是誤報呢？）。

可以看到圖中PID是2816的程式，CPU使用率非常高。

檢視程式下的執行緒資訊

使用top -Hp 2816來對程式下的執行緒進行觀察。圖中可以發現，2825這個執行緒CPU非常高。

進位制轉換

這裡利用Python非常方便的把十進位制的執行緒ID轉化成了16進位制，為什麼要這麼做呢？

因為在接下來的執行緒DUMP檔案中使用的就是16進位制的NID。

執行緒DUMP檔案

執行緒狀態轉換

在實際中，我們應該利用jstack pid多DUMP幾次，因為執行緒存在狀態轉換，因此多次DUMP有利於抓取到執行緒更多的資訊。

圖中，你可以觀察到，一個執行緒得到了鎖，在執行，遲遲沒有釋放，而另一個執行緒一直在等待這個鎖。至此，就可以到去檢視程式碼去分析為什麼鎖遲遲不釋放的原因了。

效能監測工具top詳解

上文的案例中，就使用到了top，而在實際中，top的資訊量是很大的，這裡詳細分析下。

top

第一行：

涉及到2個時間，一個是系統時間，一個是機器執行的時間。【我們應該重點關注的是機器執行的時間，Why? 有時候，重啟機器能帶來很多問題，你懂的！】

多少使用者登入了系統？【通過who/w/history可以查到更多資訊】

3個load值是什麼含義？

分別代表的是1MIN,5MIN,15MIN機器的負載情況，如何確定負載的大小呢？需要和CPU的核數相結合來看，比如該機器是4核CPU，那麼如果load值超過了4，就意味著負載很大了！【在top下按下1可以觀察出CPU的個數】

上述資訊，其實也可以通過uptime命令來獲取。

第二行：

主要是總共有多少個任務，重點應該關注的是殭屍狀態的任務數。

第三行：

主要是CPU的一些資訊。

US/SY，說的就是使用者程式和系統程式使用CPU的佔比。

NI，即NICE，表示被調整過執行緒優先順序的程式佔比，這個比例正常不應該很大。

ID，表示空閒；WA表示資源等待的時間，比如在瞬時大流量下，服務打了很多日誌的話，那麼這個值就會飆高，因為這會很消耗資源的。

HI，硬中斷，一般就是外設引起的，如果HI飆高的話，那麼意味著外設在硬體層面出現了問題。SI表示軟中斷。

ST，即steel，如果該主機是虛擬的話會有這個ST資訊，也即是該虛擬機器從宿主機獲取CPU的時間片的百分佔比。

使用者空間和系統空間

第四和第五行：

這裡主要說2個概念性的東西：buffer 和 cache。

buffer主要是什麼呢？應該是待處理的資料，主要是處理2個系統之間速度不匹配的問題。而cache，一般應該是結果資料的快取，比如從DB載入一些資訊供查詢用。

SWAP分割槽，就是想利用硬碟的做一部分快取，如果SWAP交換非常頻繁的話，就是說記憶體不夠用！

列表說明：

PID 程式ID、USER 使用者、PR 優先順序、VIRT 虛擬記憶體、RES 駐留記憶體、SHR 共享記憶體

這裡需要指出的是，RES表示的是該程式實際佔用的記憶體，而並不是申請的記憶體大小。也就是說當前程式所佔用的記憶體物理大小是 RES-SHR。

程式設計師不可不知的Linux效能工具

前言

一次線上問題排查模擬

效能監測工具top詳解

相關文章