運維數智化轉型的深入實踐與探索

danny_2018發表於2024-02-29

科技創新,驅動運維數字化轉型

黨的十八大以來,以習近平同志為核心的黨中央把科技創新擺在國家發展全域性的核心位置,把科技自立自強作為國家經濟發展的戰略支撐,在國家“十四五”規劃中“科技創新”“打造數字經濟新優勢”成為重要內容。在銀行業,中國人民銀行頒佈《金融科技發展規劃(2022—2025年)》,提出了新時期下金融領域數字化轉型的總體目標和思路。

交通銀行作為中國第一家全國性的國有股份制商業銀行,始終踐行“建設具有特色優勢的世界一流銀行集團”戰略,明確將科技金融作為集團“十四五”期間的業務特色和重要戰略方向,加快推進數字化轉型,促進科技與業務的深度融合,不斷提升科技引領能力,打造“數字化交行”新名片。

創變未來,開啟數智運營新篇章

1.挑戰促使轉型。在金融科技高速演進的大背景下,交通銀行資料中心面臨一系列複雜的運維挑戰。這些主要包括運維規模擴張,金融科技應用的快速迭代和傳統核心銀行業務系統擴充套件至各種新興的金融科技產品和服務,以及技術棧的多樣性、系統架構的複雜性、業務連續性和高可用性的要求,使得運維複雜度大幅提升。此外,雲原生技術發展和微服務等框架的引入,帶來應用服務數量、互動關係愈加複雜,同時還存在異構雲和跨雲架構,每種環境都有其獨特的網路配置、儲存選項和安全策略限制等,技術統一和能力整合難度較大,需要提升雲原生的運維能力和管理效率。再加上資料規模的增加,對海量資料的高效處理、分析、儲存能力以及安全和合規性的要求,資料治理和智慧化場景相融合,提升運維效率成為運維領域的必要建設內容。

綜上所述,現有的生產運維管理模式和運維工具面臨運維複雜度提升、雲原生和跨雲異構架構、專業豎井化到跨領域一體化、運維資料規模擴大等諸多挑戰。如何應對這些挑戰,如何有效支撐業務快速發展,將挑戰轉化成機遇,亟需透過視覺化、智慧化、自動化能力的建設提升資料中心乃至全行運維效率和水平,轉型迫在眉睫。

2.轉型創造機遇。為應對挑戰,踐行“十四五”戰略規劃,實現運維數字化轉型。交通銀行資料中心為打破傳統的部門壁壘,促進不同人員之間的協作和溝通效率,提升組織的創新能力,特別組建一支橫跨多個部門、涉及多個技術領域的團隊。一方面統一牽頭建設面向全行的生產運維一體化平臺,覆蓋雲上雲下技術棧、構建全行一體化、企業級運維能力。另一方面結合實際、最佳化迭代形成囊括資料治理、標準制造、工具應用等領域的管理制度及評價體系。以管理、組織、工具為三個基點穩定構建交通銀行數智運營體系,以此實現資料中心運維工作向“一體化平臺運維”階段演進,支撐向“智慧運營”方向探索。

夯實底座,共享平臺服務能力

2023年8月21日交通銀行資料中心正式推出新一代全行運維一體化平臺——“啟明”,總體分為兩個階段建設,第一階段:“建平臺,夯實底座”,以一體化平臺基礎能力為核心建設內容,完成統一採控、資料治理、企業級CMDB、自動化等模組建設,並實現多雲環境、信創環境適配,在場景側優先建設統一監控、應急處置等重點應用。第二階段:“搭場景,運營生態”,在第一階段基礎上,重點建設技術變更、災備切換等場景,探索告警智慧收斂、根因推薦等智慧化應用。

“啟明”基於平臺化、服務化設計理念,採用基礎能力層、運維場景層、統一門戶層三層架構設計(如圖1),聚焦一體化能力打造,構建集“監、管、控、營、服”為一體的自動化、智慧化運維支撐平臺,避免運維工具豎井化建設的問題,其融合採控、治理、服務、開發為整體,為上層業務提供強大的場景化運維支撐能力,實現運維場景豐富升級。

圖1 “啟明”平臺三層架構

數景演進,構築數字化發展之路

1.運維資料治理:塑造運維數字化轉型的基石。運維資料治理包括沉澱資料資源、開發資料資產、構建資料服務等多個環節。這些環節旨在透過一系列治理過程,如資料清洗、資料標準化、資料模型構建等,將原始的運維資料資源轉化為具有高度價值的可用資料資產。只有當這些資料資產真正應用到業務中時,它們才能轉化為企業資本,從而產生明顯的經濟效益。資料的應用價值成為推動整個資料治理工作的最大驅動力。

具體到交通銀行對運維資料治理的落地與實踐,透過構建三層七域的運維大資料模型(如圖2),與總分行、雲上雲下的各類監控工具進行對接,按照特定業務需求,基於全行運維資料規範和標準,釐清運維資料架構,提升運維資料質量,實現運維資料全技術棧統一、全資料型別統一、全生命週期管理能力。

圖2 三層七域運維資料架構

資料資源沉澱方面,涵蓋應用、系統、網路、裝置、雲五類專業領域,管理物件共38大類100+子類。接入全行重要業務系統的各類日誌、交易指標、效能指標,建立三層七域運維資料模型,實現運維資料的一致性和統一化管理。

資料資產管理方面,原始資料基於已有的資料治理規範和資料字典被轉換、對映成符合標準的後設資料,後設資料落入三層七域的標準化資料模型,資料質量、資料標準和資料安全覆蓋貼源層、核心層、應用層,實現運維資料全生命週期的管理,並強化了對運維資料質量的監控,有效支援上層應用和消費場景,也為運維決策提供了更為強大和靈活的資料支撐。

構建資料服務方面,基於多領域資料的融合組織,實現業務、交易、應用系統、專業領域等多維視角的跨技術棧、跨領域資料整合,對外提供資料服務能力,適用於實時、批次的資料消費場景,高效支撐一體化監控、告警收斂、應急處置、根因定位、故障覆盤、自動化切換等眾多運維場景下的資料需求。

2.智慧場景建設:打通數智運營“最後一公里”。資料治理為智慧運維提供了可靠的保障,在確保資料準確性、完整性和一致性的情況下,以敏態感知為基礎、故障定位為手段、故障自愈為目標,規劃並建設了一系列智慧化運維場景。敏態感知方面融合專業檢視、貫穿業務鏈路形成全感知監控;故障定位方面進行告警收斂壓縮,減少業務人員壓力,輔助資源圖譜、根因定位探索形成高效溯源定位能力;故障自愈方面以一鍵應急為基礎形成標準處置能力,從固化的場景中建設聯動場景,自動治癒符合特徵要求的故障。

(1)一體化監控

生產運維監控視覺化場景的建設,將不同領域、不同層次、不同型別的監控資料以業務為視角進行整合,形成了統一的視覺化入口,監控範圍覆蓋總行、分行、雲上雲下,統一監控指標體系,實現跨技術領域的資料關聯及資料分析,支撐秒級、多維實時監控及告警,監控資訊聯動觀測,提升故障排查效率。

平臺提供業務運營監控、應用一體化監控、專業領域監控、全鏈路監控等多樣化的檢視,滿足一、二線不同部門、不同角色、不同場景的監控需求,改善全行運維彙總分析難以關聯的問題,實現業務運營、應用拓撲與交易鏈路的直觀展示與管控。

(2)告警收斂

集中告警模組建設,在複雜的生產事件中,透過告警過濾、壓縮、降噪、收斂提升管理和排障效率。實際生產故障發生時,常伴隨著海量告警的產生,這些告警不僅包括業務層面,還涵蓋了中介軟體、系統、主機、裝置、網路等多個維度,大量的告警資訊包含重複、無效、冗餘噪音資訊,不僅消耗了有限的運維資源,還可能導致真正重要的告警被忽視,導致運維人員在故障排查過程中效率極低,難以快速做出分析決策和後續操作。

收斂模式採用多種方式實現告警過濾,一是透過告警內容壓縮,根據告警內容加以過濾條件,支援告警源、應用系統、告警級別、告警類別、告警狀態、告警描述等多維度的組合設定;二是透過告警時間壓縮,支援按照分鐘、小時、每日、固定、永久、滑動等顆粒度的時間視窗壓縮匯聚;三是智慧化壓縮,基於文字相似度比對自動生成原始告警壓縮後的告警模板,對分組事件進行相似性處理,以模版維度合併從而得到有效告警資訊。透過規則和演算法協同過濾、壓縮,對告警進行歸類、聚合、去重、降噪,減少告警通知,減輕運維人員壓力。

(3)一鍵應急

圍繞貫穿雲上雲下環境、打通專業領域束縛、形成安全/高效應急能力的目標,建設啟動、停止、限流、熔斷、切換等多個標準應急操作,形成資源、操作兩個維度應急檢視,涵蓋自動化指令碼、API操作和白屏操作多類處置方式,為全行生產操作提供安全、高效、合規的能力服務,為業務系統的穩定保駕護航。

(4)告警聯動自動化

基於監控告警、自動化操作的持續資料治理以及能力建設,實現告警物件和操作物件的關聯,透過定義告警策略和觸發方式,以高頻告警場景為切入口實現異常場景下的故障自愈,提升告警處置效率,逐步探索運維領域的“自動駕駛”領域。

(5)根因定位

透過啟明一體化運維平臺的監控告警模組建設,實現統一入口和一體化監測能力,同時引入根因定位演算法模型,細分為基於指標、告警、日誌、鏈路的根因分析模式。以告警根因定位舉例,先結合CMDB匯入軟硬體、網路裝置、基礎元件等資源配置項及資源的關聯關係,待故障發生時將一段時間內的告警按故障發生時間進行自動識別、分割和收斂,根據告警類別去重,投射到CI物件上,找出覆蓋CI的子圖並根據拓撲影響關係及最短距離閾值,輸出所有CI物件的根因評分,針對每個收斂的故障分析根因告警和受影響的告警,根據權重給出最終推薦疑似根因結果。

數智結合,共創運營生態圈

數字化轉型是交通銀行的重要發展戰略,資料中心將充分利用平臺能力為業務賦能,創造新價值,一是建設啟明一體化運維平臺、一體化生產流程平臺和安全管控平臺協同專業運維工具構建全行生產運維體系;二是不斷迭代最佳化底層平臺架構,穩步推進智慧運維場景建設,覆蓋全鏈路監控、日誌聚類、關聯分析等領域;三是持續構建知識運營體系,構建生態化應用體系,逐步形成運營生態圈。

來自 “ 金融電子化 ”, 原文作者:金融電子化;原文連結:https://mp.weixin.qq.com/s/oRC1xOPxf92t3k2fkZwBLQ,如有侵權,請聯絡管理員刪除。

相關文章