金融系統IT運維監控的探索與實踐

Linksla發表於2023-04-12
一、背景介紹

金融行業作為國內資訊化發展最早、最成熟的行業之一,在數字化應用不斷深入的情況下,傳統運維面對微服務、容器、虛擬化等顯得愈加力不從心,金融行業要建立與全新架構能力相匹配的運維體系, 提升業務運營感知能力、基礎架構運維掌控能力和敏捷業務支撐能力 保障業務連續性和安全穩定執行。這種新的需求指向可觀測性、資料分析處理和告警收斂準確度提升等方面。

二、現狀闡述

1、在眾多應用中逐漸失去平衡


由傳統集中式架構向分散式架構轉型,容器、微服務等雲原生技術的底層架構雲化升級,架構轉型演進的過程帶來的是IT單元部署數量的顯著增多。過去, 運維管理的IT裝置和資料的比例是1:100,未來,這一比例正快速變成1:100 n ,運維人員面對的IT裝置和資料規模呈幾何級增長。

不僅如此,微服務化以及分散式的依賴關係導致服務呼叫錯綜複雜,容器下的環境動態性增強,這讓運維排障變得更難。全新架構、系統眾多、可見性更差,傳統運維依賴人的技能和經驗大打折扣,運維效率在“快”與“穩”中失去平衡。


2、在告警風暴中迷失


在雲環境和混合異構環境之下,IT運維的複雜度在不斷上升。金融業務系統本來就比較龐雜,前中後臺的業務系統疊加不同的技術路線、不同的產品,包括開源、開源的二次開發 、商業化產品的混合使用,讓底層的IT基礎設施也各有差異。 IT運維在跨系統的環境中反覆橫跳,運維難度不斷攀升,即使一個飽有經驗的運維管理人員發現故障後,也要耗費大量時間檢查每一個系統,進行例如狀態資料分析、抓包分析才能定位故障。這種依賴人力的運維效率在系統複雜、工作量大的環境中就顯得捉襟見肘。

不得不說,運維人員每天處理告警事件,時刻忙於“救火”的狀態,其實非常被動。真正有效的工作應該是防患於未然,才能保障穩定、高效的業務執行。

3、缺乏資料分析處理能力


資料即資產。後臺產生的資料透過有效分析,為運營決策的支撐。來自 軟硬體、應用系統、平臺工具系統等產生的資料,包括監控指標資料、報警資料、日誌資料、網路資料、鏈路關係資料、運維知識資料、CMDB、運維流程等多類資料。資料的有效分析可以實現執行感知、業務感知等涉及的IT風險控制,效能管理、終端感知等涉及的客戶體驗分析,運營效能、服務質量,是業務的寶貴資產。
三、服務方案

結合使用者現狀及需求,在保障系統穩定執行的前提下,提高運維各個環節的執行質量。

1、資料分析

透過AI機器學習演演算法,對監控物件及應用指標產生的資料,進行計算、分析、告警。 透過趨 勢性的資料分析展示,提供業務所需的資源、容量需求等,避免資產盲目擴張造成的資源浪費,有效控制成本。

對具有周期性、趨勢性、季節性的海量時序指標資料進行異常檢測,極大提高了運維效率和告警準確性。 監控指標異常檢測,例如CPU、記憶體、業務系統黃金指標,延時、併發量、錯誤等監控指標; 應用指標異常檢測例如應用的活躍使用者數、訪問頁面數、響應時間等業務指標。

2、視覺化互動

將運維物件及關聯關係、運維流程、運維活動、運維管理資訊轉換成數字化的圖形或影像進行展示, 部署多樣化展示大屏, 支援全鏈路監控功能,提供監控指標物件的dashbord直觀呈現,提供業務系統的應用拓撲關係, 提高根因排查與故障定位效率。

3、告警收斂合併

各種監控工具會產生海量告警資訊,可能存在大量的冗餘告警甚至形成告警風暴,對運維人員產生極大干擾,降低運維工作的效率。

告警收斂合併可針對短時、大量的、甚至是持續的冗餘告警,透過文字相似度、鏈路相關性、時間相關性判斷,對冗餘告警進行合併降噪,為運維人員提供有效的告警資訊,大大提高運維效率。


四、使用者收益
 
1、成本


提高資產、應用的利用率,穩定效能,降低軟體、硬體資源投入。 提供7*24時moc線上服務,降低運維人 員壓力和故障恢復成本。

2、質量


IT運維能夠有效地保障業務系統穩定、持續,統一集中的全鏈路監控,視覺化互動讓過程可見、可控,提高各個執行環節的質量。提高故障定位及修復效率,實時巡檢,多指標衡量, 準確度和覆蓋面 大幅提升。

3、效益


變傳統被動應答的故障處理方式為可觀測的管理方式,便於快速發現、定位問題, 節約使用者告警處理的時間成本及專家技術成本,提供專業高效解決方案。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2945222/,如需轉載,請註明出處,否則將追究法律責任。

相關文章