農業銀行智慧運維建設和應用實踐

danny_2018發表於2024-03-08

隨著業務數字化轉型及架構分散式轉型的不斷加速,商業銀行的運維管理模式逐漸從“IT運維”向“IT運營”轉型,以資料為基礎、演算法為支撐、場景為導向的AIOps智慧運維技術是運維轉型的必然方向。人民銀行印發的《金融科技發展規劃(2022—2025年)》明確要建立健全金融資料中心智慧化運維機制、加強多場景協同聯動、多節點一體管控,提升節點感知、異常發現和故障預測能力,降低人工操作風險,推動運維管理模式轉型升級。中國農業銀行從2020年開始持續開展AIOps智慧運維建設,自下而上構建了“資料驅動、引擎賦能、場景導向”的智慧化運維技術體系,旨在推動農業銀行運維領域的智慧化、數字化轉型。


中國農業銀行科技與產品管理局

副總經理 李樹尉


總體思路

在智慧運維(AIOps)體系建設過程中,我們面臨著三個具體的問題。一是如何將分散、割裂的運維資料資產化?運維領域的各類資料分散在不同系統,缺乏統一的規範、標準,資料的採集、加工、聚合是要解決的首要問題。二是如何將低效、繁瑣的分析過程簡單化?因為資料分散,使用者獲取運維資料非常困難,多依賴手工採集,質量參差不齊,且分析手段單一,難以深入挖掘資料價值。三是如何將複雜、多變的分析應用場景化?一些共性類的運維痛點問題缺乏統一統籌,運維資料應用效果較差,一些個性化的場景得不到快速響應,遲遲無法落地,資料無法發揮價值。針對上述問題,農業銀行的解決方案如下。

資料先行,透過建設運維集市,實現運維領域資料的大集中,並在此基礎上構建運維指標體系,以此來實現運維資料的有效沉澱與高效共享。

引擎賦能,透過搭建面向使用者的AI+BI雙核引擎實現分析效能最大化,為使用者提供便捷的線上分析工具,提升使用者觸達和分析運維資料的效率,從而提升資料的使用效率及價值。

場景驅動,統籌建設滿足共性痛點的通用場景,敏捷響應各類個性化場景,透過共性場景和個性化場景共同推進的方式來切實推動智慧運維場景的落地應用,真正解決問題,切實發揮作用(見圖1)。

圖1 農業銀行運維資料分析體系

體系架構

1.資料集市。透過建設運維資料集市,將所有運維類平臺的資料進行了大集中,包括變更、事件等運維管理類資料,CMDB、介面消費關係等配置類資料,效能指標、告警等監控類資料以及各種運維操作、執行日誌及各類IT運營指標資料,透過對6大類運維主題資料的集中管理和統一建模,實現了運維資料的高效共享。將資料入庫之後,又透過Spark、Hadoop、GBase等海量資料處理及儲存技術,實現了低程式碼、視覺化的海量運維資料處理及儲存架構,能夠支援靈活、快速迭代各類資料加工需求。同時,結合生產運維領域的各類指標需求,構建了執行、運維、運營三運指標體系,規範化、持續化進行資料賦能,並且明確了運維資料使用和消費流程,支援運維資料的線上申請、審批、使用,實現運維資料獲取的統一紮口,並在實際對外提供資料服務的過程中,從需求出發推動運維資料治理,提高運維資料分析質量。

2.分析引擎。資料分析平臺建設了適合運維領域使用的AI演算法引擎和BI視覺化引擎,AI演算法引擎實現AIOps演算法元件化建設及共享、線上拖拽式演算法設計、模型線上訓練及管理了,能夠滿足一些高階的分析需求,BI視覺化引擎支援線上自助建模、多維度資料鑽取、多種自定義視覺化元件,能夠滿足大部分簡單視覺化分析需求。

此外,農業銀行按照運維分析專案的維度對分析活動進行了全流程線上化管理,包括了運維分析的申請、審批、成員管理、資料共享、成果展示全流程閉環管理機制,大幅提高運維資料的使用和分析效率。

透過工具賦能以及管理閉環這兩種手段,解決了運維分析效率低下的問題。同時也是運維分析理念上的創新,透過這種租戶式的場景,為廣大科技人員提供了高效的運維分析手段,從而鼓勵廣大的科技人員自主開展分析,最大化地發揮運維資料的價值。相比傳統的由單一團隊開展功能建設,由各個科技人員按需開展自主分析更能符合使用者的真實訴求,也更能體現智慧運維中用資料賦能的理念。

3.智慧場景。場景建設是智慧運維的核心,因此在資料分析平臺整體落地的過程中,透過經典場景與個性化場景相結合的方式來具體推動場景落地。

在經典場景方面:針對運維領域的一些共性問題,圍繞“事前預警分析—事中執行分析—事後總結分析”這個大的思路,打造了一系列簡單、易用、有效的經典場景,解決共性問題。在事前關注執行態勢,挖掘執行風險,防患未然,打造了包括批次智慧預警、潛在風險挖掘等核心場景;在事中,注重匯聚多方資訊,掌控全域性情況,輔助異常定位及影響分析,打造了智慧根因分析、全景洞察檢視等場景;在事後,總結歷史執行情況,深入挖掘和利用資料,提出最佳化建議,打造了應用系統畫像、健康分析報告等場景。

在個性化場景方面:透過AI、BI引擎提供自助式、定製式的個性化分析場景建設服務,快速響應個性化分析需求,必要時採取定製開發的形式進行交付,將資料賦能落在細處,促進整體運維能力提升。

實踐案例

1.業務風險分析。隨著核心系統分散式下移程序的加速推進,運維人員面臨的運維壓力也與日俱增,如何提前識別業務執行風險、快速定位異常部位、準確分析業務影響是當下亟需解決的問題。傳統的方式一般是透過對交易量、成功率、響應時間等指標手工配置閾值的方式來監控系統執行情況,在出現問題後透過查詢日誌等方式進行故障定位,其監控規則依賴運維人員手工配置,準確性、顆粒度、覆蓋面等較難保證,故障分析效率也較低。針對上述問題,農業銀行建設了核心業務風險分析場景,該場景基於對核心交易日誌的深入分析,實現了業務波動智慧檢測、觸發式多維下鑽分析、業務視角影響分析等功能(見圖2)。

圖2 業務風險分析案例

業務波動智慧檢測:透過對交易碼、錯誤碼、渠道、通道等維度的聚合分析生成相關維度的交易量、成功率、響應時間、錯誤數等業務指標,基於滑動平均、ESD、LightGBM等演算法,綜合節假日、工作日、業務高峰等時間因素及不同業務指標特性動態生成指標基線,無需人工配置閾值即可智慧識別指標異常。在此基礎上綜合指標異常情況持續時間、偏離度等因素判斷指標異常態勢,如業務量顯著下降、響應時間突增後保持、錯誤碼首次出現、錯誤碼數量持續上升,在識別到異常波動後及時產生預警提示。

觸發式多維下鑽分析:在識別到業務異常後,支援觸發式快速下鑽分析,透過智慧對比當前各維度業務指標相比歷史同期、昨日的變化情況智慧推薦可能存在異常的根因維度。如在發現某交易碼交易量異常上漲時,透過判斷該交易碼對應的省市、渠道、通道等不同維度指標相比歷史的變化程度來判斷到底是哪個省市、哪個渠道或哪個通道的異常導致了此交易碼的交易量上漲,以此來快速定位異常排查方向。

業務視角影響分析:透過交易碼與業務的對照關係、交易碼與系統的對照關係,在核心繫統檢測出異常後,自動分析當前受影響的業務種類與系統範圍,並根據受影響程度自動進行業務健康度評級。

業務風險分析功能目前已在農業銀行分散式核心系統全面推廣應用,作為監控系統的有效補充,業務風險分析功能具有粒度更精細、規則更智慧、視角更貼近業務等優點,核心業務系統的故障發現率提升了50%。

2.全景洞察檢視。新技術棧、分散式架構下導致運維物件指數級上漲,業務呼叫鏈路更加複雜,應急定位效率亟須提升。農業銀行構建了全景洞察檢視場景,從一站式資訊匯聚、海量指標異常檢測、智慧根因分析等方面全方位提高運維資料的展示、分析及決策輔助能力。

一站式資訊匯聚:對於因各條線、各平臺資訊割裂,導致運維人員無法快速掌握生產執行全貌資訊,無法準確決策的問題。透過對系統關聯資訊、資源拓撲資訊、運維活動資訊、效能指標資訊的全景匯聚,結合一些拓撲圖、關聯圖、時間線等創新性的展示形式,讓使用者能夠快速、友好的掌握各項運維資料,輔助開展決策。

海量指標異常檢測:對於海量的監控指標全量分析的效能及準確度問題。透過相關性分析演算法實現指標的分組分析,大幅降低需要檢測的指標數量,解決海量指標全量異常檢測的效能瓶頸,並基於不同的指標分類自適應選擇不同的檢測模型,提升指標異常檢測準確率。

智慧根因分析:綜合考慮指標、告警、關聯等運維資訊,構建自下而上的執行健康度評價體系,打造AI演算法與專家經驗相結合的全方位根因定位方式,實現對系統執行情況的智慧洞察與快速定位,能夠智慧推薦當前最可能導致生產運維的異常指標或行為。

目前農業銀行智慧根因定位場景已在生產上得到了廣泛應用,為生產異常的“及時發現、準確定位、快速處置”提供了有力支援,其中AI根因定位已覆蓋全部應用系統,專家定位流程覆蓋70餘個系統共積累200餘條專家經驗,生產異常的定位時間壓縮至5分鐘以內。

3.變更風險評估。據業內某機構統計,有70%以上的生產故障是因為投產變更導致,如何有效防範及發現變更導致的執行風險是有效遏止生產事件發生的關鍵手段。傳統的變更風險防控手段一般是在變更前進行變更評審,在變更後進行技術和業務驗證,這種方式依賴較多人為因素,且在當前變更數量日劇增長的情況下,無法對每個變更都進行有效的評審驗證。

基於上述問題,農業銀行針對性的建設了變更風險評估場景,該場景基於對變更相關的工單資料、配置資料、關聯資料、指標資料的深入挖掘,在變更前、後分階段從不同的維度和視角探測變更風險。

變更前—智慧標籤生成:梳理可能影響變更風險的關鍵要素,制定對應的標籤及生成規則,利用統計分析、NLP等資料分析方法提取變更標籤,結合重要程度為每個標籤設定權重,並綜合變更總體的權重得分在變更評審時智慧推薦給評審人重點關注。

變更後—指標變化探測:透過對系統變更前後各項監控指標、日誌資料的變化情況的分析來判斷系統執行態勢是否因變更導致大的變化,進而評估變更風險。

變更風險評估功能目前正在分散式核心、手機銀行、快捷支付等系統試點應用,在試點期間多次捕獲由變更導致的指標態勢變化,透過該功能成功識別出異常變更資訊,有效遏止了生產風險。

未來展望

接下來,農業銀行智慧運維領域將重點聚焦以下三方面:一是注重智慧運維的體系化服務能力建設,智慧運維是一個很大的概念,單純一個運維資料平臺的建設是無法完全支撐的,需要透過平臺提供的資料服務能力、演算法分析能力以及場景建設能力,持續為使用者、為運維平臺、為管理過程全面賦能,才能逐步推動其在運維數字化轉型的過程中發揮更大作用;二是關注大模型技術在運維領域的應用,大模型所表現出的卓越的理解、生成、排程等能力,在與運維資料深度結合後,有可能加速智慧運維的落地程序,在智慧問答、自動控制、輔助分析等領域均有著很光明的應用場景;三是繼續拓寬AIOps在運維運營領域的應用範圍,除了傳統的質量、效率類場景,為運維管理、安全管控等領域進行賦能也是資料分析平臺建設的下一個重點方向。

來自 “ 金融電子化 ”, 原文作者:國標工作組;原文連結:https://mp.weixin.qq.com/s/jjxnGgVLghj049DFT27WdA,如有侵權,請聯絡管理員刪除。

相關文章