最受歡迎的Java web應用伺服器之一——Tomcat監控選型及實踐

導語

基於京東雲豐富的實戰經驗，我們將陸續分享運維方面的乾貨，幫助小夥伴們進階為運維達人，歡迎持續關注。首先帶來的是“監控”專題系列。

本期作者：蒲公英

京東雲

應用研發部

Tomcat是一款開源的輕量級Web應用伺服器，廣泛應用於雲服務平臺及企業應用系統，是最受歡迎的Java web應用伺服器之一。因此，對於Tomcat的監控顯得尤為重要，能讓我們在不同場景下了解Tomcat的執行情況，進而能夠更好的進行調優。

enjoy:

監控選型

Tomcat Manager和Psi-probe是不錯的視覺化監控工具，能夠很好地檢視Tomcat狀態資訊（比如單位時間請求數，執行緒狀態等）。在生產環境中，隨著Tomcat例項的不斷增加，維護不同例項上的Manager控制檯會顯得有些繁瑣，同時，為了與企業監控系統、運維儀表盤等結合，有必要選擇相容性和適配性更好的監控工具。

如今，企業微服務的流行和CI/CD的強需求性，要求我們的服務在易於開發和維護的同時，具有伸縮性強、快速交付等特點。在此環境下，Tomcat+Prometheus+Grafana能夠很好的與企業已有架構適配，並能夠很好的與其他中介軟體服務監控整合到一起。Prometheus作為新一代的雲原生監控系統，鼓勵使用者監控服務的內部狀態，讓使用者可以獲取服務和應用內部真正的執行狀態。

容器環境下Tomcat+Prometheus+Grafana簡圖如下：

在實際部署中，可以簡單分為如下幾個步驟：

1、下載jmx_prometheus_javaagent ()，若為容器環境，可將jmx_prometheus_javaagent與Tomcat一起打進執行映象。

2、Tomcat啟動時，JAVA_OPTS增加Javaagent和Tomcat config.yaml (/blob/master/example_configs/Tomcat.yml )配置，例如：JAVA_OPTS=”-javaagent:/var/tomcat/jmx_prometheus_javaagent-0.3.1.jar=port:/vat/tomcat/conf/config.xml”（port為實際埠）。

3、Prometheus新增Tomcat的job_name。

監控指標梳理

在《SRE: Google運維解密》一書中指出，監控系統需要能夠有效的支援白盒監控和黑盒監控。透過白盒監控能夠了解其內部的實際執行狀態，透過對監控指標的觀察能夠預判可能出現的問題，從而對潛在的不確定因素進行最佳化。而黑盒監控，常見的如HTTP探針，TCP探針等，可以在系統或者服務在發生故障時能夠快速通知相關的人員進行處理。

監控的四個黃金指標可以在服務級別幫助我們更好地衡量終端使用者體驗、服務中斷、業務影響等層面的問題。主要關注以下四種型別的指標：錯誤，延遲，流量以及飽和度。

透過對黑盒、白盒監控的理解，結合監控的四個黃金指標，針對Tomcat的重要監控指標，可以從以下幾個方面進行考慮：

監控分類	重要監控指標	指標說明
錯誤	Tomcat requestcount and errorcount	Tomcat例項總請求數和錯誤請求數
延遲	Tomcat response time	Tomcat例項的Response time
流量	Tomcat bytessent and bytesreceived	Tomcat例項傳送和接受的流量
飽和度	heap memory	堆記憶體的使用情況
	jvm gc	GC次數和耗時
	jvm_threads	執行緒數