【LINUX】線上服務CPU100%問題快速定位實戰

小亮520cl發表於2017-08-22

功能問題,透過日誌,單步除錯相對比較好定位。

 

效能問題,例如線上伺服器CPU100%,如何找到相關服務,如何定位問題程式碼,更考驗技術人的功底。

 

58到家架構部,運維部,58速運技術部聯合進行了一次線上服務CPU問題排查實戰演練,同學們反饋有收穫,特將實戰演練的試題和答案公佈出來,希望對大家也有幫助。

 

題目

某伺服器上部署了若干tomcat例項,即若干垂直切分的Java站點服務,以及若干Java微服務,突然收到運維的CPU異常告警。

問:如何定位是哪個服務程式導致CPU過載,哪個執行緒導致CPU過載,哪段程式碼導致CPU過載?

 

步驟一、找到最耗CPU的程式

工具top

方法

  • 執行top -c ,顯示程式執行資訊列表

  • 鍵入P (大寫p),程式按照CPU使用率排序

圖示

如上圖,最耗CPU的程式PID10765

 

步驟二:找到最耗CPU的執行緒

工具top

方法

  • top -Hp 10765 ,顯示一個程式的執行緒執行資訊列表

  • 鍵入P (大寫p),執行緒按照CPU使用率排序

圖示

如上圖,程式10765內,最耗CPU的執行緒PID10804

 

步驟三:將執行緒PID轉化為16進位制

工具printf

方法printf “%x\n” 10804

圖示

如上圖,10804對應的16進位制是0x2a34,當然,這一步可以用計算器

 

之所以要轉化為16進位制,是因為堆疊裡,執行緒id是用16進製表示的。

 

步驟四:檢視堆疊,找到執行緒在幹嘛

工具pstack/jstack/grep

方法jstack 10765 | grep ‘0x2a34’ -C5 --color

  • 列印程式堆疊

  • 透過執行緒id,過濾得到執行緒堆疊

圖示

如上圖,找到了耗CPU高的執行緒對應的執行緒名稱“AsyncLogger-1”,以及看到了該執行緒正在執行程式碼的堆疊。

 

希望對經常進行線上CPU問題排查的同學有幫助,如果有更好的實踐,也歡迎分享。

想要印象深刻,請大家務必線上實操練習喲。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29096438/viewspace-2143958/,如需轉載,請註明出處,否則將追究法律責任。

相關文章