透過自動化運維實現無人值守的故障自愈

北京智和信通發表於2024-04-12

故障自愈指實時發現告警,預診斷分析,自動恢復故障,並打通周邊系統實現故障的快速恢復。透過故障自愈提升企業網路系統可用性、降低排障處置人力投入,實現從“人工處置”到“無人值守”的轉變。

針對運維中對故障自愈能力的需求,北京智和信通在實時監控告警的基礎上,搭載視覺化運維配置模組,透過賦予使用者自定義編輯故障自愈策略的能力,實現無需針對告警進行手動處置,只需預編排告警處理流程,平臺根據場景自動觸發,從而做到故障自愈。

第1章 故障自愈──以(磁碟爆滿自動清理為例)

對各類裝置進行批次、定時、條件觸發等操作,透過自動化執行實現在網路、裝置出現故障時的自動排障和自愈,釋放運維人力。下面以磁碟爆滿自動清理為例,介紹如何透過智和網管平臺實現故障自愈。

效果要求:當伺服器磁碟使用率超過90%時,觸發自動清理策略,釋放磁碟空間。

第一步:將需要管理的伺服器納入平臺進行監控,並將監視器設定為磁碟使用率超過90%進行嚴重告警。

第二步:進入安管模組的運維編排選單,建立磁碟爆滿自動清理策略。根據真實排障過程,透過進行策略節點拖拽編排的方式規劃自愈流程。

透過自動化運維實現無人值守的故障自愈

第三步:配置觸發方式。方式支援透過告警觸發和透過時間觸發兩種方式進行,為實現故障自愈的效果,我們選擇透過匹配告警的方式觸發策略。

透過自動化運維實現無人值守的故障自愈

編排流程配置完成後,裝置出現對應的嚴重級別告警後,立即觸發磁碟清理策略,自動執行編排內的操作,對故障進行校驗和處置。並在執行過程中,對每一步處置操作進行記錄形成日誌,確保有跡可循。

第2章 自定義應急處置,實現多場景下故障自愈

在故障自愈方案中,核心是精確定位告警並匹配到適宜使用者應用場景的故障自愈策略。一個符合使用者需求的自愈策略,將為使用者節約80%的故障處理時間。

因此,北京智和信通提供從實時監控異常狀態到告警收斂降噪、定位故障根因的高精確告警方案,並透過視覺化編排工具,支援以拖拽的方式快速簡單地完成作業流程的配置,將複雜的運維工作和任務轉變為一致的,可複用的、可度量和有效的工作流,實現自動化運維。

透過自動化運維實現無人值守的故障自愈

故障自愈方案的整體流程從獲取精準告警開始,到預診斷分析,判斷告警型別和級別,一般告警觸發自愈策略,平臺進行自動恢復,嚴重複雜告警則透過告警通知、運維工單等形式通知運維管理人員,進行人工處理,從而實現故障的快速治癒。

第3章 實時發現異常,智慧故障收斂

智和信通故障自愈方案一體化集中監控各類IT資源,全量匯聚效能、事件、日誌、流量等異常告警資訊。充分利用積累的有效定障、排障經驗,打通綜合監控、IP合規性監測、流量透視、自動運維、運維工單等關聯資料,實現從告警檢測到排障恢復的全生命週期閉環管理。

3.1. 實時監控,全面匯聚告警資訊

實時監控、感知全網效能狀態,透過主動淪陷與日誌解析的方式,動態呈現網路態勢,覆蓋網路中各類軟硬體裝置,洞察裝置、資源、鏈路效能。採用多種告警機制,自定義配置告警閾值,從眾多的狀態資訊和日誌資料中,將零散的資訊總結成當前態勢並進行實時分析,對異常情況進行告警。

透過自動化運維實現無人值守的故障自愈

3.2. 事件接收,日誌彙總分析

接收Trap、Syslog、Filter Alarm等事件資訊和裝置日誌資料,集中儲存、解析、提取有效資訊,將事件與日誌儲存為可統計分析的結構化資料,呈現日誌資料價值。根據對事件、日誌資料的挖掘與分析,透過配置告警規則和場景,將異常日誌自動轉化為告警,定位其影響範圍。

透過自動化運維實現無人值守的故障自愈

3.3. 告警降噪,快速定位根因

採用自動去重、風暴抑制、關聯聚合、維護期時間遮蔽、依賴遮蔽等多種智慧告警降噪機制,透過AI演算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,直達故障根因。包括事件過濾機制、故障事件上報機制、故障事件呈現過濾、故障事件入庫過濾、故障事件確認等處理機制,有效避免誤報和漏報。

透過自動化運維實現無人值守的故障自愈

一步定位到發生故障的源頭裝置,基於混合演算法,快速檢索異常問題關聯涉及的各項維度與影響範圍,快速定位問題邊界。及時進行排障處置,支援以拓撲圖的方式回放歷史告警下的裝置告警變化、拓撲圖和鏈路告警變化,支援快進、後退等播放操作,有效地預防更加嚴重的故障發生。

透過自動化運維實現無人值守的故障自愈

第4章 視覺化場景編排,提升複雜故障處置能力

方案具備拖拽式場景編排能力,可以靈活地定製運維場景,自動執行編排流程。整體運維操作過程和執行結果均以視覺化的方式進行呈現。不限制作業流程及流程內節點配置數量,全面滿足不同運維需求,同時支援高效能的多條編排流程併發執行,加快排障處置效率。

透過自動化運維實現無人值守的故障自愈

平臺內建多種原子運維命令,滿足使用者日常基本運維需求,同時支援使用者配置專屬策略,透過對原子策略的組合複用,實現針對不同運維場景的策略模板,滿足不同裝置在不同運維場景下的特有需求。

透過視覺化編排以拖拽的方式快速簡單地完成作業流程的配置,將複雜的運維工作和任務轉變為一致的,可複用的、可度量和有效的工作流,實現自動化運維。

智和信通故障自愈方案透過“監控+運維+控制”相結合的方式,將日常所需的各類故障排查、處置工作以策略模板的形式提供給使用者,確保每個操作安全高效,全面提升告警排障效率。



來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70011401/viewspace-3012371/,如需轉載,請註明出處,否則將追究法律責任。

相關文章