扎心的運維告警
隨著企業數字化轉型的深化,許多行業都捲入了資料爆炸的洪流之中,健康大資料、金融大資料、政務大資料…而運維從業者這一群體,與資料的關聯更加緊密。隨著APM產品的普及,運維夥伴可以輕易將所需關注的資料進行視覺化的展現,對業務的變化可以做到一目瞭然,但同時,也給自己套上了“緊箍咒”,監控平臺的“紅色標識”,郵箱、簡訊收到的告警提示,緊牽著運維夥伴的神經。問題也隨之而來,如何最佳的配置“告警”,是每一個運維夥伴工作中面臨的棘手問題。
業務越來越複雜,越早的發現區域性小問題,才能更好的保障業務的執行。如何實現精細化的告警?
“可用性”是判斷應用健康狀況的一項重要指標,但這一項指標告警可能存在一些遺漏及誤報,比如在金融行業常見的前置應用到核心應用這一架構中,當核心應用的“成功率”、“響應率”等指標正常時,是否即可判定應用正常?實際情況中,核心應用通常承載許多程式模組,當其中某一程式模組出現問題時,而整體的指標在正常的範圍時,“可用性”告警可能就失效了。這一場景下,“過濾器”即可發揮出價值。
“過濾器”可透過一組搜尋條件,在已歸類好的交易裡將我們關注的某種特徵的交易篩選出來,例如IP埠、不同交易渠道、不同交易型別等維度,再結合運算,做單獨的分析,即可實現更加精準的告警配置。
舉例來說,在配置高危事件告警時,可透過重點監控關鍵交易及關鍵節點的效能指標,對交易中出現的關鍵錯誤碼的重點識別來實現對高危事件的告警。當然,這僅是“過濾器”應用的冰山一隅,在面對更加複雜的場景時,“過濾器”有更大的發揮空間。
隨著業務的增長、告警的精細化要求,監控的需求越來越大,傳統的配置方法顯然無法滿足,如何應對?
當需要對資料按照維度進行過濾時,當一個維度下的值成千上萬時,當一些值只在離散的時間段內出現,動態增減,人工難以及時響應調整時,想實現對其全面的監控便會十分的困難。潛在的巨大工作量更是難以承受。此時,“聚合維度告警“挺身而出。透過聚合維度告警,在設定告警物件時,不必再人工對要監控的所有值逐個的指定,只需告訴監控系統所關注的維度,該維度下所有值均會按照告警條件進行監控,並且可以透過例外值的獨立設定,確保監控的精準與可靠。
業務在變,監控需求也在變,告警能不能更加智慧?
絕大多數的監控系統都是透過閾值來實現告警的,閾值是固定的,而業務卻是不斷變化的,隨之而來的問題便是告警的泛濫,隱患不言而喻。近年,很多企業也開始嘗試“去閾值”,動態基線的科學性自然成為了舉足輕重的大事。在即將釋出的EZSonar4.1版本中,華青融天最佳化了原有的“動態基線告警”演算法。最佳化後的AI演算法基於模型多週期因素綜合考慮,管理員不需要再額外配置其他引數,在指定需要監控的指標後,便可以自動的實現學習和監控。
運維之路,艱苦漫長,告警的持續改進也不能一蹴而就,運維夥伴需要不斷的最佳化、不斷的總結。華青融天亦身先士卒,透過不斷的更新、迭代產品,助力運維夥伴。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31500758/viewspace-2639625/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 婚姻扎心的真相
- 【IT運維】運維告警方式有哪些?哪個工具好用?運維
- 運維告警管理—多渠道的通知必達運維
- 醫院運維 告警閃現後的故障排查運維
- 告警運維中心|構建高效精準的告警協同處理體系運維
- 智慧運維中的關鍵一步——告警管理運維
- 運維文件:系統監控及告警配置運維
- 運維效率狂飆,全在告警管理上運維
- 運維告警管理困難重重,我是怎麼做到的運維
- Oracle 自動化運維-Python監控Oracle告警日誌Oracle運維Python
- 扎心!Kubernetes企業落地六大“難”
- 扎心!天天寫程式碼,方向真的對嗎?
- 運維監控丨16條常用的Kafka看板監控配置與告警規則運維Kafka
- 扎心!“我學了半年Python,還是找不到工作”Python
- 快訊!“Python背後有推手?”程式設計師:真相扎心!Python程式設計師
- 扎心實戰案例:麻(shi)雀(zhan)雖小,五臟俱全
- [譯] 怎麼做:React Native 網頁應用。一場開心的掙扎React Native網頁
- 扎心!一個3年經驗的程式設計師經驗之談!程式設計師
- 扎心一問!你憑什麼成為top1%的Java工程師?Java工程師
- 集中運維與分散運維的比較 - thenewstack運維
- clickhouse 的運維運維
- 做運維的感悟(做運維需要考慮事,運維組織結構,運維學習地圖....)運維地圖
- 蘋果聯合創始人宣佈退出Facebook:小扎鬧心蘋果
- 扎心!“就業難”背後的“十宗罪”我竟佔了一半就業
- 只有老運維人才能懂的運維乾貨運維
- IT運維之自動化運維運維
- Redis作者的公開信:開源維護者的掙扎和無奈Redis
- 我的運維故事運維
- 老凡的運維筆記 | 智慧化運維知多少?運維筆記
- 【IT運維】Linux運維需要掌握哪些技能?運維Linux
- 回首五年運維,運維需要思考運維
- 服務維護之crontab定時監測告警
- Apache DolphinScheduler使用圖關係解決核心鏈路告警問題,減輕任務運維負擔!Apache運維
- 扎心!“我學了六個月 Python,怎麼還是會找不到工作”Python
- Linux運維命令重要嗎?運維入門Linux運維
- IT運維的發展如何運維
- 簡單的磁碟運維運維
- 我對運維的思考運維