我們常說，IT運維是比較有風險意識的。往往能預測哪裡可能出現問題，出現問題後該如何處理。在運維環境中，為了保障業務系統穩定正常執行，需要對監控物件進行持續性的監控，並且透過資料統計分析，及時地反應出效能瓶頸、安全隱患等。

因此監控就成為整個運維環境，乃至整個產品運維環節中最重要的一環，事前及時預警發現故障，事中診斷快速定位，事後分析覆盤避免二次故障。

監控物件分類

我們通常將監控物件分為四大類

1.伺服器監控，主要監控伺服器如：CPU 負載、記憶體使用率、磁碟使用率、登陸使用者數、程序狀態、網路卡狀態等。

2.應用程式監控，主要監控該應用程式的服務狀態，吞吐量和響應時間，因為不同應用需要監控的物件不同，這裡不一一列舉。

3.資料庫監控，特別重要，一般監控資料庫狀態，資料庫表或者表空間的使用情況，是否有死鎖，錯誤日誌，效能資訊等等。

4.網路監控，主要監控當前的網路狀況，網路流量等。

如何提高運維監控水平，我們分享一些小技巧。

1、定義告警優先順序策略

一般監控結果是成功或者失敗，如Ping不通、訪問網頁出錯、連線不到Socket，這些最優先告警。除此之外，還能監控到返回的延時、內容等，如Ping返回的延時、訪問網頁的時間、訪問網頁取到的內容等。

利用返回的結果可以自定義告警條件，如Ping監控的返回延時一般是10-30ms之間，當延時大於100ms時候，表示網路或者伺服器可能出現問題，引起網路響應慢，需要立即檢查是否流量過大或者伺服器CPU太高等問題。

2、定義告警資訊內容標準

當伺服器或應用發生故障時告警資訊內容非常多，如告警執行業務名稱、伺服器IP、監控的線路、監控的服務錯誤級別、出錯資訊、發生時間等。

預先定義告警內容及標準使收到的告警內容具有規範性及可讀性。這點對於用簡訊接受告警內容特別有意義，簡訊內容最多是70個字元，要在70個字元完全知道故障內容比較困難，更需要預先定義內容規範。如：“影片直播伺服器10.0.211.65 在2012-10-18 13:00電信線路監控第到1次失敗”，清晰明瞭的知道故障資訊。

3、集中監控和分散式監控相結合

主動集中監控雖然不需要安裝程式碼和程式，非常安全和方便，但缺少很多細緻的監控內容，如無法獲取硬碟大小、CPU的使用率、網路的流量等，這些監控內容非常有用，如CPU太高表示有網站或者程式出問題，流量太高表示可能被攻擊等。

被動分散式監控常用的是SNMP(簡單網路管理協議)，透過SNMP能監控到大部分你感興趣的內容。大部分作業系統支援SNMP，開通管理非常方便，也非常安全。SNMP缺點是比較佔用頻寬，會消耗一定的CPU和記憶體，在CPU太高和網路流量大情況下，無法有效進行監控。

4、定義故障告警主次

對於監控同一臺伺服器的服務，需要定義一個主要監控物件，當主要監控物件出現故障，只傳送主要監控物件的告警，其它次要的監控物件暫停監控和告警。

例如用Ping來做主要監控物件，如果Ping不通出現Timeout，表示伺服器已經當機或者斷網，這時只傳送伺服器Ping告警持續監控Ping，因為再繼續監控和告警其它服務已經沒有必要。這樣能大大減少告警訊息數量，又讓監控更加合理、更加有效率。

5、實現對常見性故障業務自我修復功能

實現對常見性故障業務自我修復功能指令碼進行統一部署並對修復後故障進行檢查告警檢查頻次不多於3次。

6、監控範圍及目標

實現對負載均衡裝置、網路裝置、伺服器、儲存裝置、安全裝置、資料庫、中介軟體及應用軟體等IT資源的全面監控管理;

同時自動收集、過濾、關聯和分析各種管理功能產生的故障事件，實現對故障的提前預警和快速定位;

對網路和業務應用等IT資源的效能進行監控，定期提供效能報表和趨勢報表，為效能最佳化及未來系統擴容提供科學依據。

如何做好運維監控？

相關文章