No.182# 故障相關內容提點

ITPUB社群發表於2023-01-28

引言

基本上每個公司都有一個NOC團隊,負責整個公司技術保障的值班與運營。NOC(Network Operation Center)網路運營中心,這篇捋下NOC負責主要內容。

  • 故障關聯的概念
  • 覆盤中常見問題
  • 故障覆盤主要點
  • 故障治理數字化
一、故障關聯的概念

1、發現與恢復

目標:持續提升平均故障間隔時間,持續降平均低故障修復時間。

  • MTBF(Mean Time Between Failure)平均故障間隔時間

  • MTTR(Mean Time To Repair)平均故障修復時間

故障平均修復時間(MTTR)具體細分

  • MTTI(Mean Time To Identify)平均故障發現時間
  • MTTK(Mean Time To Know)平均故障定位時間
  • MTTF(Mean Time To Fix)平均故障解決時間
  • MTTV(Mean Time To Verify)平均故障修復和驗證時間
  • MTTR=MTTI+MTTK+MTTF+MTTV

故障響應要求

  • 5-5-10:5分鐘發現、5分鐘定位、10分鐘解決恢復
  • 3-5-10:3分鐘發現、5分鐘定位、10分鐘恢復

2、服務質量

  • 服務質量指標(SLI)

    • 是指衡量服務質量的具體量化指標
    • 常見的指標,例如:請求延遲、錯誤率、系統吞吐量
    • 此外,可用性指標99.99%保障、儲存系統的永續性指標
  • 服務質量目標(SLO)

    • 服務某個質量指標SLI的目標值或者目標值範圍
    • 例如:該系統的平均請求延遲須小於300ms
  • 服務質量協議(SLA)

    • 描述在達到或者未達到SLO的後果
    • 如果沒有明確的後果,需要重新討論SLO

二、覆盤中常見問題

1、時間線上常見問題

  • 故障發現:負責同學的電話是否及時接聽、客訴發現能否轉換為系統發現、告警是否有忽略
  • 故障定位:輔助決策/視覺化系統根因分析能力的提升、負責同學對系統的熟悉程度
  • 故障恢復:應急預案、止血措施、配置限流/降級預案、強弱依賴以及降級措施
  • 故障解決:定位根因解決、測試驗證確認

2、故障型別常見問題

  • 變更執行:變更方對受影響方的觸達告知、通知是否到位、變更影響是否遠超預期

  • 服務依賴:上下游依賴是否為強依賴、弱依賴降級措施是否具備、是否能兜底措施

  • 場景衝突:本次業務需求變更影響了以前業務場景、測試用例能否覆蓋、針對遺落的測試用例該如何增強

  • 程式碼BUG:相容性測試、效能測試、單元測試、迴歸測試、程式碼CR等能否發現、非生產環境停留期是否能進一步發現

  • 第三方責任:第三方提供的服務導致、服務是否針對第三方服務具備高可用設計、兜底方案


三、故障覆盤主要點

由NOC組織覆盤,一次覆盤包含的內容做個整理。將故障覆盤過程落入系統,方便以上相關相關指標的統計、分析以、檢索。

1、故障內容總覽

對故障簡要描述,常見內容如下

  • 故障簡要描述
  • 影響的業務域
  • 影響業務範圍
  • 影響域干係人
  • 故障域責任人
  • 故障注入時間
  • 故障發生時間
  • 故障發現時間
  • 故障上報時間
  • NOC介入時間
  • 故障定位時間
  • 故障止血時間
  • 故障恢復時間

2、故障處理時間線

  • 故障發現的時間與渠道
  • 故障定位的時間與過程
  • 故障止血的時間與過程
  • 故障直接以及根本原因

3、故障影響範圍

  • 詳細羅列受影響的域與業務
  • 單量/客訴/資損/輿情等影響

4、故障定級與改進

  • 根據故障定級條例對該故障定級
  • 故障定責、確定該故障的責任域責任人
  • 該故障關聯的改進事項

四、故障治理數字化

根據重要性、影響範圍、持續時間、業務的低/高峰期、不同的業務域等制定故障等級標準。

1、故障等級劃分

  • P級故障:例如將故障劃分為P0~P5
  • 事件級別:未達到P級故障的事件
  • 故障責任:明確各個等級需承擔的責任人
  • 例如:變更造成單量下跌超過30%被定義為P1級故障
  • 例如:P1級故障需要部門負責人承擔

2、故障治理數字化

  • 將每次故障以及覆盤系統化
  • 自動計算MTBF、MTTR等指標繪製大盤
  • 故障數量、級別、型別等分佈情況
  • 相關指標根據業務域下鑽和分析
  • 改進事項的推進跟蹤管理
  • 故障的定期覆盤和分析



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2933043/,如需轉載,請註明出處,否則將追究法律責任。

相關文章