No.182# 故障相關內容提點
引言
基本上每個公司都有一個NOC團隊,負責整個公司技術保障的值班與運營。NOC(Network Operation Center)網路運營中心,這篇捋下NOC負責主要內容。
故障關聯的概念 覆盤中常見問題 故障覆盤主要點 故障治理數字化
1、發現與恢復
目標:持續提升平均故障間隔時間,持續降平均低故障修復時間。
MTBF(Mean Time Between Failure)平均故障間隔時間
MTTR(Mean Time To Repair)平均故障修復時間
故障平均修復時間(MTTR)具體細分
MTTI(Mean Time To Identify)平均故障發現時間 MTTK(Mean Time To Know)平均故障定位時間 MTTF(Mean Time To Fix)平均故障解決時間 MTTV(Mean Time To Verify)平均故障修復和驗證時間 MTTR=MTTI+MTTK+MTTF+MTTV
故障響應要求
5-5-10:5分鐘發現、5分鐘定位、10分鐘解決恢復 3-5-10:3分鐘發現、5分鐘定位、10分鐘恢復
2、服務質量
服務質量指標(SLI)
是指衡量服務質量的具體量化指標 常見的指標,例如:請求延遲、錯誤率、系統吞吐量 此外,可用性指標99.99%保障、儲存系統的永續性指標 服務質量目標(SLO)
服務某個質量指標SLI的目標值或者目標值範圍 例如:該系統的平均請求延遲須小於300ms 服務質量協議(SLA)
描述在達到或者未達到SLO的後果 如果沒有明確的後果,需要重新討論SLO
1、時間線上常見問題
故障發現:負責同學的電話是否及時接聽、客訴發現能否轉換為系統發現、告警是否有忽略 故障定位:輔助決策/視覺化系統根因分析能力的提升、負責同學對系統的熟悉程度 故障恢復:應急預案、止血措施、配置限流/降級預案、強弱依賴以及降級措施 故障解決:定位根因解決、測試驗證確認
2、故障型別常見問題
變更執行:變更方對受影響方的觸達告知、通知是否到位、變更影響是否遠超預期
服務依賴:上下游依賴是否為強依賴、弱依賴降級措施是否具備、是否能兜底措施
場景衝突:本次業務需求變更影響了以前業務場景、測試用例能否覆蓋、針對遺落的測試用例該如何增強
程式碼BUG:相容性測試、效能測試、單元測試、迴歸測試、程式碼CR等能否發現、非生產環境停留期是否能進一步發現
第三方責任:第三方提供的服務導致、服務是否針對第三方服務具備高可用設計、兜底方案
由NOC組織覆盤,一次覆盤包含的內容做個整理。將故障覆盤過程落入系統,方便以上相關相關指標的統計、分析以、檢索。
1、故障內容總覽
對故障簡要描述,常見內容如下
故障簡要描述 影響的業務域 影響業務範圍 影響域干係人 故障域責任人 故障注入時間 故障發生時間 故障發現時間 故障上報時間 NOC介入時間 故障定位時間 故障止血時間 故障恢復時間
2、故障處理時間線
故障發現的時間與渠道 故障定位的時間與過程 故障止血的時間與過程 故障直接以及根本原因
3、故障影響範圍
詳細羅列受影響的域與業務 單量/客訴/資損/輿情等影響
4、故障定級與改進
根據故障定級條例對該故障定級 故障定責、確定該故障的責任域責任人 該故障關聯的改進事項
根據重要性、影響範圍、持續時間、業務的低/高峰期、不同的業務域等制定故障等級標準。
1、故障等級劃分
P級故障:例如將故障劃分為P0~P5 事件級別:未達到P級故障的事件 故障責任:明確各個等級需承擔的責任人 例如:變更造成單量下跌超過30%被定義為P1級故障 例如:P1級故障需要部門負責人承擔
2、故障治理數字化
將每次故障以及覆盤系統化 自動計算MTBF、MTTR等指標繪製大盤 故障數量、級別、型別等分佈情況 相關指標根據業務域下鑽和分析 改進事項的推進跟蹤管理 故障的定期覆盤和分析
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2933043/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 專案內容相關
- JDBC mysql 相關內容筆記JDBCMySql筆記
- Makefile書寫命令相關內容
- 頁面佈局的相關內容
- UWB硬體設計相關內容
- golang的記憶體相關內容Golang記憶體
- java檔案相關(檔案追加內容、檔案內容清空、檔案內容讀取)Java
- .NET Conf China 2024 AI相關內容解析AI
- Linux檔案內容檢視相關命令Linux
- js效能優化相關內容筆記整理JS優化筆記
- Linux Limit相關內容設定大全(值得收藏)LinuxMIT
- Linux作業系統相關內容介紹!Linux作業系統
- Linux 相關學習內容(不定期更新)Linux
- thinkphp,onethink都沒有測試相關的內容PHP
- openwrt擴容相關
- 快速上手Linux核心命令(四):檔案內容相關命令Linux
- Python import相關內容區別介紹( import *** as 、from***import )PythonImport
- 乾貨!一文看懂高精地圖相關內容地圖
- 如何使用PbootCMS內容詳情頁標籤呼叫相關資訊boot
- More-iOS開發中的音訊相關內容總結iOS音訊
- 簡單瞭解一下關於程式碼簽名證書的相關內容
- 關於線上一次DDOS攻擊和阿里雲DDOS防護相關內容阿里
- js點選複製內容JS
- redis相關知識點Redis
- Git相關知識點Git
- 備份容災相關概念總結
- “馬力歐大逃殺”遊戲已刪除所有任天堂相關內容遊戲
- 案例分析|執行緒池相關故障梳理&總結執行緒
- React相關知識點:關於ReduxReactRedux
- 軟考案例分析重點內容
- 一對一聊天原始碼,動態搜尋,自動填充可能相關的內容原始碼
- LR模型相關知識點模型
- 【Java】容器相關知識點Java
- ivar layout 相關知識點
- 再快一點?動態內容如何加速
- 軟體測試內容的要點
- js 實現點選複製內容JS
- jQuery table內容點選標題排序jQuery排序