技術乾貨|如何實現分鐘級故障管理

Linksla發表於2022-09-23

隨著雲端計算、大資料的不斷髮展,系統架構不斷升級,功能持續迭代。系統的複雜性越來越高,故障的發生不可避免,場景也無法預測。 就硬體裝置來說,IT裝置規模不斷增加,告警種類與數量也隨之增加。 核心層的故障牽一髮動全身,可能會產生大面積的告警,故障定位效率大大降低,同時影響業務系統正常執行。

今天我們分享故障發生後,如何第一時間定位到故障效能指標, 快速恢復系統執行以降低故障影響的方法。

小夥伴不禁發問,故障是不可避免的嗎?

是的,非但故障不可避免,甚至什麼時候、什麼場景發生故障都無法預測的。

只要有可能,就一定會發生,墨菲定律如是說。


故障定位方法
1、經驗驅動
根據個人經驗,透過 用邏輯功 能, 上下游呼叫鏈、資料流向、應用配置、資料庫流水等要素,快速定位故障。此處憑藉高能經驗值不足為外人道也。
2、啟動應急預案
故障發生可能會影響業務的正常執行,運維工程師可以啟動緊急預案,緩解搶修壓力。可將預案樂高式拼裝, 一旦產生故障,預案可自動觸達。透過 場景模組的整合,形成標準化動作,同時也豐富預案的模組設計。
萬般技巧皆是用來保障系統業務的穩定執行。
3、測試復現
檢視生產環境的異常日誌, 同步測試系 統,將生產已知缺陷資料線上化,輔助測試定位。 線上獲得配置資訊,檢視應用配置項的生產設定情況,快速掌握故障根因。

工具使用

1、檢視日誌

日誌是運維瞭解硬體及軟體內部邏輯的一面視窗。日誌記錄業務、中介軟體、系統等全鏈路資訊,可以有效監控IT系統各個層面,可有效地調查系統故障,監控系統執行狀況。
一體化的日誌分析平臺和AI技術結合,歸納分散日誌,對日誌資料進行二次加工,大大提升故障定位能力。
2、 鏈路關係
運維工程師可對平臺現有鏈路關係進行線上的獲取,充分掌握平臺系統的可維護性與可靠性,服務呼叫配套的解決方案。
3、 監控定位
監控的核心價值是發現異常,即刻響應。 主要體現以下幾方面:
1

  對異常的描述。

2

  告警收斂,基於 CMDB 關係資料進行初步定位。

3

   利用監控資料與 AI演算法,智慧化故障定位。

4、資料感知
透過資料基線,感知系統健康狀態,多維度組合的視覺化、即時的資訊推送能夠更快,更全面的感知異常。
5、知識庫匹配
支援資料來源、指標、文字異常檢測,基於故障案例、資料探勘的故障診斷、故障預測、故障自愈、 成本最佳化、資源最佳化、容量規劃、效能最佳化等場景。

解決專家不在故障處理現場的問題,以及技能的 沉澱與傳承。

6、推薦LinkSLA智慧運維管家

輕裝上陣,無憂運維。自動巡檢,快速發現異常主動式預防。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2915914/,如需轉載,請註明出處,否則將追究法律責任。

相關文章