運維告警管理困難重重,我是怎麼做到的

程式猿來了發表於2020-07-13

隨著IT基礎設施的雲化,應用執行環境的容器化,系統架構的微服務化,越來越多的企業不得不引入更多的工具、更復雜的流程和更多的運維人員,來提升IT系統管理的精細度,但新的問題也隨之而來。

在如此龐雜的環境下,資料間緊密相連,一個指標的變化,可能引發一系列的告警連鎖反應。不同監控平臺的紅色標識、不斷湧入的告警郵件和簡訊,緊牽著運維人員的神經,告警管理挑戰重重。

 

充滿挑戰的運維告警管理:

  • 如何抑制告警風暴?

  • 如何保障重要告警不漏不丟?

  • 如何快速地甄別根因告警?

  • 如何沉澱告警處置經驗?

  • 如何快速恢復業務執行?

這些都是每一個運維團隊在工作中面臨的最棘手的問題。 到底是什麼原因導致如此頻發的告警風暴,給告警管理帶來如此之高的複雜度呢?

 

1.應用系統間關係更加緊密

完成一筆業務往往需要跨越多個應用系統,應用呼叫鏈路上每個IT單元的問題,都有可能導致業務故障。系統中任何一個監控物件的告警都可能引發其他多個相關策略的告警,海量告警的相關度高達90%,也就是說90%的告警都是可以被歸因到一個根源告警上。

 

2.告警策略設定難以找到平衡點

過高的告警閾值,容易漏掉系統執行故障;而過低的告警閾值,又會帶來大量的無效告警,影響運維團隊的工作效率。同樣,告警檢查週期的長短設定也存在類似的問題。往往運維團隊為了不落掉告警,不得不提升告警的靈敏度,而這樣告警重複率可能高達60%。

 

3.告警響應的及時性不高

多個人參與同一類告警的處理是目前大部分運維團隊的工作模式,少則2-3人,多到9-10人,同一個告警會被推送到多個運維人員的手中。但是,通常在一些特殊時段只有一個值班員負責處理告警,這就給其他團隊成員生活帶來了巨大的干擾。因為缺少高效的分派和排班管理機制,加上大量重複的無效資訊,這將會在一定程度上造成告警處理的延時和遺漏,從而引發告警風暴。

 

4.告警故障知識庫的建立

除了技術的難點,告警管理過程還有另一個關鍵點,就是告警故障知識庫的建立。這是日常運維工作經驗的積累和沉澱,也是故障恢復方案的基礎。但這也恰恰是很多企業的軟肋,大量的故障處理經驗都存在於運維人員各自的大腦中,日常中更多的依靠個人能力去排查和恢復故障。隨著運維人員的流動,這些最為寶貴的資產也隨之流失,這使得一個重複故障的處理也需要進行重新分析,不必要的拉長了故障恢復時間。

 

如何克服運維告警管理中的重重挑戰?經過我多年的實踐和學習,我發現 很符合我的需求

下面簡短的講講他的優點:

 

資源監控,即時告警: 雲幫手具備資源監控,即時告警的功能,全方位監控雲伺服器CPU、記憶體、磁碟、網路等各項資源,透過設定指標告警規則產生告警。透過告警的精細化管理,幫助使用者即時反應處理,保證程式執行暢通。

故障定位、快速處理: 傳統的問題處理從故障出現、發現、初步處理、建立問題單、故障資訊採集、故障定位到故障恢復,往往耗時數小時。雲幫手從問題的秒級感知到產生預警,再到問題的快速定位與一鍵修復,處理時長可以縮短到幾分鐘,問題處理效率提升數倍,快速恢復業務執行。

運維之路,艱苦漫長, 的功能不僅僅體現在告警管理方面,還以打造“更便捷、更安全、更高效”的自動化運維軟體為目標,涵蓋安全巡檢、智慧監控運維、日誌審計等核心技術,為使用者提供各種業務場景的自動化運維服務,如檢測並修復伺服器潛在風險、伺服器多重防護、日誌審計輔助排障等,能夠有效提高運維效率,減少人為事故,節省運維成本,是運維人的好幫手!

如果你想了解更多,可以前往雲幫手官網看看:

如果你覺得我寫的不錯,記得贊讚我~


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69977020/viewspace-2704171/,如需轉載,請註明出處,否則將追究法律責任。

相關文章