“資料+技術”助力雲原生智慧運維體系建設

danny_2018發表於2024-02-29

在雲原生時代,隨著雲端計算、微服務等技術的廣泛運用,系統更新迭代速度不斷加快,運維資料規模爆炸式增長,傳統的運維方式越來越無法滿足7×24小時穩定可靠執行的要求。為實現運維架構的轉型升級,工商銀行緊跟業界AIOps發展趨勢,以“資料+技術”雙要素為驅動,整合優勢開發資源研究攻關,從無到有構築了雲原生智慧運維平臺,提供涵蓋故障管理、變更管理、成本管理、運維支援四大類運維管理新模式能力的AIOps智慧運維服務,全面推進運維智慧化轉型。

打造一站式故障管理體系,邁進“1-3-5”故障處理目標

面對運維複雜度指數級增長和使用者穩定性要求不斷提升的現狀,工商銀行針對指標、日誌、鏈路等運維資料構建了標準化歸集的能力,並透過運維資料分析中心支撐故障異常識別、排查定位和應急修復全流程功能的建設,新增“火警圖”統一運維大屏實現一站式端到端敏捷管理,向著“1-3-5”故障處理目標持續邁進,即1分鐘發現、3分鐘定位和5分鐘恢復(如圖1)。

圖1 一站式故障管理體系架構

在故障異常識別方面,工商銀行以運維基礎資料為著眼點(如圖2),一是建立指標、日誌、鏈路運維三大可觀測支柱的監控後設資料儲存中心,實現涵蓋系統、中介軟體、應用、業務和客戶端的多維立體化監控能力覆蓋;二是基於統計學、無監督學習、深度學習演算法實現基帶檢測、離群檢測、波形檢測、突變對比和波動對比等通用化異常檢測演算法中臺,提供指標配置、線上視覺化調參、告警標註、異常告警郵件傳送等全棧服務,有效彌補了傳統閾值一刀切、無法自適應不同時間段狀態差異的不足;三是深度定製了開源度量分析及視覺化工具,支援基礎設施和應用程式實時執行情況的全景式展現,並提供個性化配置服務滿足應用“千人千面”的需求。

圖2 雲原生可觀測支柱

在故障分析方面,工商銀行採用自動化、智慧化“兩手抓”策略,實現問題快速分析和定位。一是打造一體化診斷中心,整合了豐富的診斷指標型別,目前已支援日誌診斷、資料庫診斷、介面診斷等13大類總計58種原子診斷能力。同時基於故障樹分析法打造診斷樹功能,支援應用結合自身業務特點及運維需要自定義串、並聯組合編排診斷規則,模擬人工操作完成問題的排查分析,並可根據故障覆盤和混沌演練結果持續保鮮(如圖3)。二是打造智慧根因下鑽分析服務,基於智慧異常檢測演算法,結合鏈路拓撲、交易指標、基礎資源指標等資料,從橫向和縱向兩個維度對故障根因完成智慧分析與定位。橫向維度基於SLO生死指標報警,結合服務呼叫拓撲和業務交易生死指標波形,從報警節點出發,利用上下游服務呼叫指標、事件、時間相關性分析等演算法,逐層下鑽分析候選故障根因節點,並結合上下游指標相似度、異常程度分析溯源故障發生根因服務節點;縱向維度針對橫向定位產生的異常節點,基於運維知識圖譜查詢端到端部署拓撲關係,利用指標異常檢測演算法,對PaaS容器、宿主機、叢集,以及IaaS計算、儲存、網路等各基礎設施節點的關鍵效能指標(如CPU、記憶體等)開展異常排查,根據拓撲節點深度、指標異常嚴重程度及異常相關性逐層下鑽鎖定根因節點。透過橫縱向智慧根因定位,有效彌補了專家經驗無法覆蓋未知故障場景的痛點,助力運維人員快速定位。

圖3 故障診斷樹排查法

在故障應急方面,工商銀行透過建立應急專家庫,實現故障與應急措施的有效關聯。根據故障原因和影響範圍的不同,制定匹配的應急措施,在提升應急效率的同時有效防範風險:針對容器、單點服務、宿主機等點狀故障,透過呼叫雲平臺的標準化介面,觸發重啟、禁用、隔離等自動恢復策略;針對服務群組、園區級別的面狀故障,提供應急修復建議,支援運維人員一鍵式完成園區切換、全面降級等複雜高風險應急措施。

在統一檢視方面,為解決超高敏應用的生產運維痛點,工商銀行充分挖掘並整合各平臺監控優勢,創新性地提出“火警圖”的概念,幫助應用提高故障處理時效性。火警圖圍繞“視覺化、智慧化、一鍵化”的設計理念,整合部署架構、系統資源、服務呼叫監控於一體,結合一鍵式應急能力,提供業務指標、技術指標、部署拓撲等多維度一站式監控、線上診斷和應急能力,推動隔離、擴容、切園區新三板斧落地,有效提升應用故障快速定位和處理時效,全面保障生產業務平穩執行。

截至目前,一站式故障管理能力累計協助應用發現執行風險超過500次/月,透過平臺快速定位和應急處理問題超過30萬次,針對交易成功率下跌、慢SQL等部分場景的定位準確率已達90%以上,有力保障了“雙十一”電商搶購、紀念幣搶購等重大活動的實時監控。

構建智慧化資源排程平臺,實現集約化成本管理

隨著雲端計算的快速發展,企業在雲資源分配、使用和管理過程中缺少規範約束,導致浪費問題日益嚴重。中國工商銀行積極研究並構建了智慧化資源排程平臺,著重研發負載畫像、資源混部、彈性伸縮三方面智慧技術,實現集約化成本管理。在負載畫像方面,基於Prometheus監控體系及雲平臺等資料構建資源可觀測檢視,透過資料驅動成本最佳化,實現多維度資源用量分析,從資源角度深度挖掘雲平臺底座和應用層的資源不合理使用情況,完成資源配額與副本數的精準推薦;在資源混部方面,依託資源分級搶佔、整機分時複用、冗餘資源再排程等策略,落地多級別、在離線、異構算力等多種資源混部場景,提升資源部署密度,實現不同優先順序應用、大資料批次與通用算力、CPU與GPU異構算力的雲資源混部排程;在彈性伸縮方面,基於時序預測演算法和自研排程器,實現應用節點業務高峰和低谷彈性擴縮容,減少常駐容器資源。平臺形成了一整套資源申請評估推薦、資源執行分析、資源最佳化推薦、最佳化激勵的成本運營可持續化流程。

截至目前,智慧化資源排程平臺累計減少離線任務等待時間20%,資源利用率由原先虛擬機器資源池的15%提升至混部資源池的32%,實現了超億元裝置的迴環利用,達到同業領先水平。

落地主動式變更風險防禦機制,降低投產變更操作風險

為實現應用系統投產驗證全流程自動化管控,工商銀行採用Jenkins Pipeline流程編排引擎和ansible伺服器管理技術,基於PaaS雲平臺Kubernetes、docker以及elasticserch的雲原生特性,建立了智慧投產驗證平臺(如圖4)。隨著驗證場景日益複雜、變更頻率日漸提升,工商銀行在智慧投產驗證平臺基礎之上,針對應用配置複雜、變更潛在風險易忽視、風險分析難的痛點問題,構建主動式輕配置變更風險防禦機制。針對應用效能容量、系統效能容量、日誌、容器執行情況、引數等多個變更重點關注維度,透過分析灰轉正、變更前後各個維度運維資料變化情況,進行輕配置和智慧化升級改造,有效降低應用配置成本。同時打造主動式驗證技術鏈路,可不依賴使用者配置,面向應用基於投產變動重點關注維度,主動在投產前、投產中、投產後不同階段透過定時任務觸發重點智慧驗證,打造應用驗證、智慧驗證雙保險機制,以及時發現潛在風險。並且提供統一風險可觀測皮膚,整體形成了智慧預警、線上分析、應急回退等全流程風險管控機制,加速應用的閉環處理。

圖4 主動式變更風險防禦機制架構

截至目前,變更風險防禦機制已累計對接875個應用,支援資料庫驗證、日誌驗證、介面驗證等16大驗證場景80+種驗證小類,月均下發驗證任務超過3萬次,多次發現故障日誌突增、效能容量變動、應用容器節點健康度低、引數配置調整等生產隱患,協助應用發現和規避投產風險超過8000次,有效降低了投產變更風險。

推進運維支援智慧化服務,塑造日誌分析、運維助手新模式

中國工商銀行面向運維領域積極探索透過人工智慧技術擴充現有AIOps邊界。一方面,工商銀行針對故障日誌定位慢、排查難的痛點問題,收集上萬級日誌及錯誤碼故障標註資料,基於文件結構拆分、問題增強、精排等智慧化技術,研究構建日誌故障智慧分析服務,以提供日誌內容解讀、故障原因分析以及故障解決方案的建議;另一方面,工商銀行針對運維諮詢、工單答覆等不同場景收集運維平臺指引、常見問題、應急方案等運維文件,逐步建立多元化運維知識庫,以實現運維知識有效歸集和線上更新收集,打造基於運維助手的“一攬子”服務,為運維全流程提供智慧化問答式互動諮詢解答。

截至目前,工商銀行已完成日誌故障智慧分析服務的首版本投產,支援使用者前臺自定義輸入異常日誌報文,以多輪對話方式提供問題原因及解決方案,實現繳費、合作方中臺、信用卡產品等20個應用的試點對接,協助分析各類異常報文超1000次。同時,透過構建型運維助手試點提供分散式工單智慧處理服務,將處理時長由小時級壓降為分鐘級,大幅提升了使用者滿意度。

未來展望

工商銀行先後藉助雲端計算和人工智慧等新興技術,實現了IT整體架構的改造升級和運維模式的創新變革,為客戶及交易規模的高速發展提供了堅實支撐。後續將進一步深化故障預測、容量管理等場景的建設,向無人化運維的終極目標持續逼近,為建設“智慧、開放、共享、高效、融合”的智慧銀行資訊系統持續發光發熱。

來自 “ 金融電子化 ”, 原文作者:金融電子化;原文連結:https://mp.weixin.qq.com/s/r7PkSLU_iIDFBkaOqmQyBg,如有侵權,請聯絡管理員刪除。

相關文章