透過自動化運維實現無人值守的故障自愈
故障自愈指實時發現告警,預診斷分析,自動恢復故障,並打通周邊系統實現故障的快速恢復。透過故障自愈提升企業網路系統可用性、降低排障處置人力投入,實現從“人工處置”到“無人值守”的轉變。
針對運維中對故障自愈能力的需求,北京智和信通在實時監控告警的基礎上,搭載視覺化運維配置模組,透過賦予使用者自定義編輯故障自愈策略的能力,實現無需針對告警進行手動處置,只需預編排告警處理流程,平臺根據場景自動觸發,從而做到故障自愈。
第1章 故障自愈──以(磁碟爆滿自動清理為例)
對各類裝置進行批次、定時、條件觸發等操作,透過自動化執行實現在網路、裝置出現故障時的自動排障和自愈,釋放運維人力。下面以磁碟爆滿自動清理為例,介紹如何透過智和網管平臺實現故障自愈。
效果要求:當伺服器磁碟使用率超過90%時,觸發自動清理策略,釋放磁碟空間。
第一步:將需要管理的伺服器納入平臺進行監控,並將監視器設定為磁碟使用率超過90%進行嚴重告警。
第二步:進入安管模組的運維編排選單,建立磁碟爆滿自動清理策略。根據真實排障過程,透過進行策略節點拖拽編排的方式規劃自愈流程。
第三步:配置觸發方式。方式支援透過告警觸發和透過時間觸發兩種方式進行,為實現故障自愈的效果,我們選擇透過匹配告警的方式觸發策略。
編排流程配置完成後,裝置出現對應的嚴重級別告警後,立即觸發磁碟清理策略,自動執行編排內的操作,對故障進行校驗和處置。並在執行過程中,對每一步處置操作進行記錄形成日誌,確保有跡可循。
第2章 自定義應急處置,實現多場景下故障自愈
在故障自愈方案中,核心是精確定位告警並匹配到適宜使用者應用場景的故障自愈策略。一個符合使用者需求的自愈策略,將為使用者節約80%的故障處理時間。
因此,北京智和信通提供從實時監控異常狀態到告警收斂降噪、定位故障根因的高精確告警方案,並透過視覺化編排工具,支援以拖拽的方式快速簡單地完成作業流程的配置,將複雜的運維工作和任務轉變為一致的,可複用的、可度量和有效的工作流,實現自動化運維。
故障自愈方案的整體流程從獲取精準告警開始,到預診斷分析,判斷告警型別和級別,一般告警觸發自愈策略,平臺進行自動恢復,嚴重複雜告警則透過告警通知、運維工單等形式通知運維管理人員,進行人工處理,從而實現故障的快速治癒。
第3章 實時發現異常,智慧故障收斂
智和信通故障自愈方案一體化集中監控各類IT資源,全量匯聚效能、事件、日誌、流量等異常告警資訊。充分利用積累的有效定障、排障經驗,打通綜合監控、IP合規性監測、流量透視、自動運維、運維工單等關聯資料,實現從告警檢測到排障恢復的全生命週期閉環管理。
3.1. 實時監控,全面匯聚告警資訊
實時監控、感知全網效能狀態,透過主動淪陷與日誌解析的方式,動態呈現網路態勢,覆蓋網路中各類軟硬體裝置,洞察裝置、資源、鏈路效能。採用多種告警機制,自定義配置告警閾值,從眾多的狀態資訊和日誌資料中,將零散的資訊總結成當前態勢並進行實時分析,對異常情況進行告警。
3.2. 事件接收,日誌彙總分析
接收Trap、Syslog、Filter Alarm等事件資訊和裝置日誌資料,集中儲存、解析、提取有效資訊,將事件與日誌儲存為可統計分析的結構化資料,呈現日誌資料價值。根據對事件、日誌資料的挖掘與分析,透過配置告警規則和場景,將異常日誌自動轉化為告警,定位其影響範圍。
3.3. 告警降噪,快速定位根因
採用自動去重、風暴抑制、關聯聚合、維護期時間遮蔽、依賴遮蔽等多種智慧告警降噪機制,透過AI演算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,直達故障根因。包括事件過濾機制、故障事件上報機制、故障事件呈現過濾、故障事件入庫過濾、故障事件確認等處理機制,有效避免誤報和漏報。
一步定位到發生故障的源頭裝置,基於混合演算法,快速檢索異常問題關聯涉及的各項維度與影響範圍,快速定位問題邊界。及時進行排障處置,支援以拓撲圖的方式回放歷史告警下的裝置告警變化、拓撲圖和鏈路告警變化,支援快進、後退等播放操作,有效地預防更加嚴重的故障發生。
第4章 視覺化場景編排,提升複雜故障處置能力
方案具備拖拽式場景編排能力,可以靈活地定製運維場景,自動執行編排流程。整體運維操作過程和執行結果均以視覺化的方式進行呈現。不限制作業流程及流程內節點配置數量,全面滿足不同運維需求,同時支援高效能的多條編排流程併發執行,加快排障處置效率。
平臺內建多種原子運維命令,滿足使用者日常基本運維需求,同時支援使用者配置專屬策略,透過對原子策略的組合複用,實現針對不同運維場景的策略模板,滿足不同裝置在不同運維場景下的特有需求。
透過視覺化編排以拖拽的方式快速簡單地完成作業流程的配置,將複雜的運維工作和任務轉變為一致的,可複用的、可度量和有效的工作流,實現自動化運維。
智和信通故障自愈方案透過“監控+運維+控制”相結合的方式,將日常所需的各類故障排查、處置工作以策略模板的形式提供給使用者,確保每個操作安全高效,全面提升告警排障效率。
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70011401/viewspace-3012371/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 透過運維編排實現自動化智慧運維與故障自愈運維
- 透過視覺化運維配置,實現故障秒級自愈視覺化運維
- 運維轉型之路 —手工運維到無人值守的自動化運維,從根本實現降本增效運維
- 按鍵大師:用Python實現無人值守的自動化操作Python
- 無人值守自動化安裝系統
- 無人值守的運維到底靠譜不靠譜?運維
- 運維累了:該故障自愈出場了運維
- 無人值守汽車衡 掃碼自動過磅
- 故障自愈出場後,運維就能歇歇了吧……運維
- 地磅無人值守自動稱重管理掃碼過磅的優點
- 配電網開啟全新智慧模式 自動化系統對故障實現分秒級自愈模式
- 自動化運維-Python paramiko 實現無客戶端系統巡檢運維Python客戶端
- IT運維之自動化運維運維
- 阿里雲釋出ECS自動化運維套件,幫助企業實現自動化運維轉型阿里運維套件
- 自動化運維工具ansible的實踐運維
- 北京智和信通 | 無人值守的IDC機房動環綜合監控運維運維
- 是否只有實現了容器化、自動編排等等才算是實現了運維自動化?運維
- 透過CRM系統實現工作流程自動化
- 運維工作新時代:自主編碼實現運維自動化的轉型之旅運維
- linux透過shell指令碼實現ssh互動式自動化Linux指令碼
- 變電站運維推陳出新?無人值守卻更勝一籌運維
- kickstart+PXE+dhcp+nfs 批量無人值守自動化安裝作業系統NFS作業系統
- 自動化運維平臺的實施計劃運維
- 如何透過前端表格控制元件實現自動化報表?前端控制元件
- Ansible自動化運維工具運維
- 賦能您的CRM,透過Infobip實現全渠道營銷自動化
- 停車機器人上崗 實現停車場無人值守機器人
- 自動化運維的快速演進運維
- 如何在Java服務中實現自動化的健康檢查與自愈機制Java
- 維大殺器來了,未來雲上伺服器或將實現無人值守伺服器
- 什麼是自動化運維?為什麼選擇Python做自動化運維?運維Python
- 指標是構築自動化運維與智慧化運維的基石指標運維
- ansible自動化運維入門運維
- 簡化IT運維工作,就要學會使用自動化運維工具!運維
- 論IT運維自動化的重要性運維
- 無人值守智慧洗車
- 地磅無人值守系統
- 如何透過資料開發治理實現資料流程的自動化和規範化?