扎心的運維告警

華青融天發表於2019-03-28

隨著企業數字化轉型的深化,許多行業都捲入了資料爆炸的洪流之中,健康大資料、金融大資料、政務大資料…而運維從業者這一群體,與資料的關聯更加緊密。隨著APM產品的普及,運維夥伴可以輕易將所需關注的資料進行視覺化的展現,對業務的變化可以做到一目瞭然,但同時,也給自己套上了“緊箍咒”,監控平臺的“紅色標識”,郵箱、簡訊收到的告警提示,緊牽著運維夥伴的神經。問題也隨之而來,如何最佳的配置“告警”,是每一個運維夥伴工作中面臨的棘手問題。

 

業務越來越複雜,越早的發現區域性小問題,才能更好的保障業務的執行。如何實現精細化的告警?

“可用性”是判斷應用健康狀況的一項重要指標,但這一項指標告警可能存在一些遺漏及誤報,比如在金融行業常見的前置應用到核心應用這一架構中,當核心應用的“成功率”、“響應率”等指標正常時,是否即可判定應用正常?實際情況中,核心應用通常承載許多程式模組,當其中某一程式模組出現問題時,而整體的指標在正常的範圍時,“可用性”告警可能就失效了。這一場景下,“過濾器”即可發揮出價值。

“過濾器”可透過一組搜尋條件,在已歸類好的交易裡將我們關注的某種特徵的交易篩選出來,例如IP埠、不同交易渠道、不同交易型別等維度,再結合運算,做單獨的分析,即可實現更加精準的告警配置。

舉例來說,在配置高危事件告警時,可透過重點監控關鍵交易及關鍵節點的效能指標,對交易中出現的關鍵錯誤碼的重點識別來實現對高危事件的告警。當然,這僅是“過濾器”應用的冰山一隅,在面對更加複雜的場景時,“過濾器”有更大的發揮空間。

 

隨著業務的增長、告警的精細化要求,監控的需求越來越大,傳統的配置方法顯然無法滿足,如何應對?

當需要對資料按照維度進行過濾時,當一個維度下的值成千上萬時,當一些值只在離散的時間段內出現,動態增減,人工難以及時響應調整時,想實現對其全面的監控便會十分的困難。潛在的巨大工作量更是難以承受。此時,“聚合維度告警“挺身而出。透過聚合維度告警,在設定告警物件時,不必再人工對要監控的所有值逐個的指定,只需告訴監控系統所關注的維度,該維度下所有值均會按照告警條件進行監控,並且可以透過例外值的獨立設定,確保監控的精準與可靠。

 

業務在變,監控需求也在變,告警能不能更加智慧?

絕大多數的監控系統都是透過閾值來實現告警的,閾值是固定的,而業務卻是不斷變化的,隨之而來的問題便是告警的泛濫,隱患不言而喻。近年,很多企業也開始嘗試“去閾值”,動態基線的科學性自然成為了舉足輕重的大事。在即將釋出的EZSonar4.1版本中,華青融天最佳化了原有的“動態基線告警”演算法。最佳化後的AI演算法基於模型多週期因素綜合考慮,管理員不需要再額外配置其他引數,在指定需要監控的指標後,便可以自動的實現學習和監控。

 

 

運維之路,艱苦漫長,告警的持續改進也不能一蹴而就,運維夥伴需要不斷的最佳化、不斷的總結。華青融天亦身先士卒,透過不斷的更新、迭代產品,助力運維夥伴。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31500758/viewspace-2639625/,如需轉載,請註明出處,否則將追究法律責任。

相關文章