SRE:如何提高報警有效性?

NetRookieX發表於2023-02-19

為什麼要提升<報警有效性>

過多的報警會讓負責人麻木
過多的報警會增加簡訊和電話的成本
提升根因定位效率

如何定義<報警有效性>

不漏報
不誤報
不重報
不延報

如何量化

MTTF (Mean Time To Failure,平均無故障時間):平均正常執行時間
MTTR (Mean Time To Repair,平均修復時間):故障發生到故障修復之間的平均值
MTBF (Mean Time Between Failure,平均失效間隔):兩次故障之間的平均值
報警次數,有效報警量
漏報次數
重複報警數
故障感知時長
報警認領率

如何提升

服務提升:從源頭解決問題,減少報警
閾值合理:故障、預警的閾值都要合理
故障自愈:可以有效降低簡訊和電話報警次數,減少人工故障處理成本。(但不能依賴)
排除抖動:最常用的方式是連續出現問題再報警
降低維護成本:如規範監控指標,使用統一sdk、指令碼等

監控完善&自感知

  • 抓手-分級合理:對監控物件進行分級(如高優服務)、對報警進行分級(嚴重故障電話報警)。如永久排除非線上環境的機器。
  • 多維度監控完善:業務監控、服務監控、基礎監控......
  • 藉助程式:自動感知新的服務、新的介面、新的呼叫關係......(防止系統變更導致漏報)

減少重複報警

  • 報警收斂:如一個叢集有多臺機器出現問題,就需要收斂
  • 合理設定報警間隔
  • 報警接收人合理:可以設定值班制度+緊急上升
  • 落實責任制:如報警認領率、成本分攤

相關文章