為什麼要提升<報警有效性>
過多的報警會讓負責人麻木
過多的報警會增加簡訊和電話的成本
提升根因定位效率
如何定義<報警有效性>
不漏報
不誤報
不重報
不延報
如何量化
MTTF (Mean Time To Failure,平均無故障時間):平均正常執行時間
MTTR (Mean Time To Repair,平均修復時間):故障發生到故障修復之間的平均值
MTBF (Mean Time Between Failure,平均失效間隔):兩次故障之間的平均值
報警次數,有效報警量
漏報次數
重複報警數
故障感知時長
報警認領率
如何提升
服務提升:從源頭解決問題,減少報警
閾值合理:故障、預警的閾值都要合理
故障自愈:可以有效降低簡訊和電話報警次數,減少人工故障處理成本。(但不能依賴)
排除抖動:最常用的方式是連續出現問題再報警
降低維護成本:如規範監控指標,使用統一sdk、指令碼等
監控完善&自感知
- 抓手-分級合理:對監控物件進行分級(如高優服務)、對報警進行分級(嚴重故障電話報警)。如永久排除非線上環境的機器。
- 多維度監控完善:業務監控、服務監控、基礎監控......
- 藉助程式:自動感知新的服務、新的介面、新的呼叫關係......(防止系統變更導致漏報)
減少重複報警
- 報警收斂:如一個叢集有多臺機器出現問題,就需要收斂
- 合理設定報警間隔
- 報警接收人合理:可以設定值班制度+緊急上升
- 落實責任制:如報警認領率、成本分攤