金融系統IT運維監控的探索與實踐
金融行業作為國內資訊化發展最早、最成熟的行業之一,在數字化應用不斷深入的情況下,傳統運維面對微服務、容器、虛擬化等顯得愈加力不從心,金融行業要建立與全新架構能力相匹配的運維體系, 提升業務運營感知能力、基礎架構運維掌控能力和敏捷業務支撐能力 , 保障業務連續性和安全穩定執行。這種新的需求指向可觀測性、資料分析處理和告警收斂準確度提升等方面。
1、在眾多應用中逐漸失去平衡
由傳統集中式架構向分散式架構轉型,容器、微服務等雲原生技術的底層架構雲化升級,架構轉型演進的過程帶來的是IT單元部署數量的顯著增多。過去, 運維管理的IT裝置和資料的比例是1:100,未來,這一比例正快速變成1:100 n ,運維人員面對的IT裝置和資料規模呈幾何級增長。
不僅如此,微服務化以及分散式的依賴關係導致服務呼叫錯綜複雜,容器下的環境動態性增強,這讓運維排障變得更難。全新架構、系統眾多、可見性更差,傳統運維依賴人的技能和經驗大打折扣,運維效率在“快”與“穩”中失去平衡。
2、在告警風暴中迷失
在雲環境和混合異構環境之下,IT運維的複雜度在不斷上升。金融業務系統本來就比較龐雜,前中後臺的業務系統疊加不同的技術路線、不同的產品,包括開源、開源的二次開發 、商業化產品的混合使用,讓底層的IT基礎設施也各有差異。 IT運維在跨系統的環境中反覆橫跳,運維難度不斷攀升,即使一個飽有經驗的運維管理人員發現故障後,也要耗費大量時間檢查每一個系統,進行例如狀態資料分析、抓包分析才能定位故障。這種依賴人力的運維效率在系統複雜、工作量大的環境中就顯得捉襟見肘。
3、缺乏資料分析處理能力
結合使用者現狀及需求,在保障系統穩定執行的前提下,提高運維各個環節的執行質量。
透過AI機器學習演算法,對監控物件及應用指標產生的資料,進行計算、分析、告警。 透過趨 勢性的資料分析展示,提供業務所需的資源、容量需求等,避免資產盲目擴張造成的資源浪費,有效控制成本。
對具有周期性、趨勢性、季節性的海量時序指標資料進行異常檢測,極大提高了運維效率和告警準確性。 監控指標異常檢測,例如CPU、記憶體、業務系統黃金指標,延時、併發量、錯誤等監控指標; 應用指標異常檢測例如應用的活躍使用者數、訪問頁面數、響應時間等業務指標。
將運維物件及關聯關係、運維流程、運維活動、運維管理資訊轉換成數字化的圖形或影像進行展示, 部署多樣化展示大屏, 支援全鏈路監控功能,提供監控指標物件的dashbord直觀呈現,提供業務系統的應用拓撲關係, 提高根因排查與故障定位效率。
各種監控工具會產生海量告警資訊,可能存在大量的冗餘告警甚至形成告警風暴,對運維人員產生極大干擾,降低運維工作的效率。
告警收斂合併可針對短時、大量的、甚至是持續的冗餘告警,透過文字相似度、鏈路相關性、時間相關性判斷,對冗餘告警進行合併降噪,為運維人員提供有效的告警資訊,大大提高運維效率。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2945222/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Grafana監控系統的構建與實踐Grafana
- 運維文件:網站監控系統運維網站
- 愛奇藝微服務監控的探索與實踐微服務
- 資料庫智慧運維探索與實踐資料庫運維
- 運維文件:伺服器監控系統運維伺服器
- 運維文件:系統監控及告警配置運維
- 基於 Prometheus 的監控系統實踐Prometheus
- 運維文件 - 伺服器效能監控系統運維伺服器
- 運維數智化轉型的深入實踐與探索運維
- vivo 容器叢集監控系統架構與實踐架構
- 資料庫監控工具--PIGOSSBSM運維監控管理系統資料庫Go運維
- K8S部署WGCLOUD運維監控系統K8SGCCloud運維
- 供水泵站組態監控與故障運維一體化系統運維
- IT監控(進階篇):運維監控系統手把手部署教學運維
- 運維監控工具運維
- 2024 年了,IT 運維監控系統都有哪些推薦?運維
- 運維DevOps體系解析與落地實踐運維dev
- 2017前端監控系統探索總結前端
- 冷鏈運輸遠端監控運維管理系統有何功能運維
- 無監控,不運維:解讀企業全棧式監控運維運維全棧
- 運維監控丨16條常用的Kafka看板監控配置與告警規則運維Kafka
- 打造雲原生大型分散式監控系統 (三): Thanos 部署與實踐分散式
- 企業架構管控的探索與實踐架構
- grafana+prometheus快速搭建MySql監控系統實踐GrafanaPrometheusMySql
- 運維初級實踐——Linux系統命令教程運維Linux
- 工業裝置遠端監控與維護系統
- NETCONF工具與智慧化網路監控運維運維
- 灌漿機遠端監控運維繫統運維
- 如何做好運維監控?運維
- 儲能PCS系統遠端監控智慧運維繫統解決方案運維
- 實時監控系統,統一監控企業APIAPI
- 智和網管平臺打造“海量接入 智慧監控”的統一運維監控中心運維
- RecSysOps:奈飛運維大型推薦系統的最佳實踐運維
- 運維必學的監控系統——Prometheus,大牛免費直播帶你入門~運維Prometheus
- Kubernetes監控實踐
- 日誌監控實踐 - 監控Agent整合Lua引擎實現多維度日誌採集
- 運維監控指標彙總運維指標
- ORACLE OGG運維及日常監控Oracle運維