銀行資料中心全棧智慧運維方案

北京智和信通發表於2023-03-30

        隨著金融科技的不斷變革,銀行的網路整體規劃和建設思路也在不斷追趕新時代銀行業務的發展需要。隨之而來的是銀行資料中心的網路規模不斷擴大,從最初的單中心逐漸延伸到多地多中心運營的模式,使用的網路技術也從傳統的交換路由、負載均衡、防火牆逐步發展到軟體定義網路、網路服務虛擬化等各類新興技術。 

        同時,在金融需求越來越旺盛,銀行業務發展越來越快的當下,銀行資料中心出現異常執行而造成的損失和後果就愈發嚴重。在雲端計算、大資料等新興技術不斷湧現的新形勢下,如何保障資料中心安全生產執行,高效率、高質量地運維龐雜的網路環境,已成為銀行資訊科技部門的必答題。

第1章 銀行資料中心運維建設背景

        根據銀監會編制的《中國銀行業資訊科技;十三五;發展規劃監管指導意見》中明確指出: 提高運維自動化水平,打造智慧化運維體系。

        《意見》表明:提高基礎資源和應用部署的自動化水平,實現快速交付、動態調整、彈性部署,降低人工操作風險,自動化部署比例不低於75%。持續推進生產運維監控精細化、自動化、智慧化建設,強化系統風險和故障的早預警、早定位和早處置。實現應用層面交易全流程、全節點監控全覆蓋,結合應用系統交易特性及相關資料的分析對比,提升交易過程監控的智慧化水平。強化容量管理,做好相關資源的動態規劃,預防非計劃性、突發性的容量瓶頸問題發生。強化運維、開發、安全、風險管理的資訊共享和一體化協作,提升多方聯動能力。加強運維大資料分析,利用運維大資料加強業務風險防控,探索利用運維大資料推動業務流程最佳化並支援業務創新。

第2章 銀行資料中心網路運維痛點

        隨著銀行資料中心資訊系統規模逐漸壯大,資訊科技部的運維工作任務日益繁重,傳統的區域性、粗放、碎片化的IT運維管理模式已經無法滿足新形勢下業務連續性保障的實際需求。在現有的銀行運維體系下,運維管理的工作涵蓋從機房基礎設施,到各類網路及網路裝置、伺服器、作業系統、資料庫、中介軟體、各級業務系統所引發的各類事件和問題,如容量不足、故障恢復、災備轉移等等內容。

        銀行IT運維也面臨著應用系統繁多,系統間關聯關係負責,業務環節繁多等壓力,而在日常運維工作中,事件處理中資訊不全、問題描述不準確、關鍵資訊缺失等情況,也給運維部門帶來重重困難。

  • 銀行資料中心的系統硬體從型號、品牌呈現數量多、品牌多的特點,難以統一管理。
  • 支撐業務系統的虛擬化、雲端計算、大資料、微服務、容器、信創等技術趨勢迅速翻新,迫IT環境複雜度、規模都急劇提升;節點分佈範圍更加廣,物理位置不統一,對故障定位、變更升級等運維工作帶來新挑戰。
  • 新增業務需配置多廠商、多型別裝置,各廠商裝置配置命令千差萬別,協議繁複,配置極其複雜,大量重複性的策略開通工作,費時費力;而上雲的業務也同樣面臨異構多雲跨廠商業務開通的難題。
  • 銀行業務的多元化發展,對系統和網路設施的依賴性不斷增加,在傳統運維方案中,難以自動發現業務應用拓撲關係和交易訪問路徑,難以直觀定位業務節點,故障根源定位慢,缺乏對業務系統整體健康狀況和執行趨勢的監測,無法判定業務系統是否存在執行瓶頸。
  • 跨部門排障行為複雜,需較長時間進行故障定位,無法達到精準化報警;同時由於系統和應用間互動關係複雜,往往需要多部門聯動、多環節併發式排障,造成異常處置不及時。
  • 銀行運維資料儲存分散,缺乏統一資料標準,存在資料一致性、準確性、完整性不足等問題,不易管理及挖掘價值,難以評估系統當前和未來對資源的需求,及資源分配的合理性。
  • 銀行資料中心的安全生產水平,依賴於開發、測試、執行以及業務、風險管理、支援保障等多個部門,在實際運維工作中,運維職能難以清晰界定,部門間協同存在客觀難度。
  • 在銀行實際運維工作中,部分場景問題解決過度依賴專家人員,解決方案沒有形成知識,難以傳承複用,也無法持續擴充套件打造自身知識運營體系。


第3章 智和信通銀行資料中心自動化運維解決方案

        銀行作為對IT系統可用性、業務系統穩定性要求極高的金融機構,對整體網路架構的可靠性、安全性等方面提出更高要求。銀行資料中心的網路運維涉及網路視覺化、故障管理、效能管理、業務管理、配置管理、變更管理、應急保障等多方面的需求。同時,因業務的特殊性,客戶對銀行服務中斷和效能問題的容忍度較低,運維需求已由單純的實現IT支撐,逐步轉變為支援業務發展,平穩應對業務量持續及爆發式增長,保障使用者體驗等方面的需求,因此在系統異構的現狀下,如何保障業務連續性和高可靠性建設正在逐步成為銀行資料中心運維的重點。

        北京智和信通深入分析銀行運維需求,針對銀行資料中心基礎架構複雜度不斷增長,伺服器數量急劇增加,業務複雜度快速發展的現狀,提出自動化運維方案,為銀行網路保駕護航。

智和信通銀行網路運維平臺功能模型

3.1.異地網路架構視覺化

        目前大型銀行基本採取全國資料集中管理的模式,在網路架構上採用“全國一網”的形式。網路架構中軟硬體環境涉及的技術複雜,廠商眾多。北京智和信通透過網路架構拓撲視覺化能力,將網路資料從離線表格轉移至平臺內,從靜態的網路架構資料轉化為動態智慧拓撲,實現全網裝置、資源、連結關係、IP等實時更新、快速定位。

        在動態拓撲上展現裝置實時狀態,透過樹形、平面結構聯動展示裝置間連結關係,透過按片區、按地域、按層級等多種佈局方式劃分網路,使用不同顏色、粗細、圖示表示被管理物件的狀態資訊,助力運維人員實時瞭解網路架構及全網執行狀態,快速感知資源、鏈路、流量等異常資訊。

銀行網路撲示意圖

3.2.兩地三中心的災備架構視覺化

        為滿足銀行對業務穩定執行與快速恢復,確立“兩地三中心”的災備模式,即資料中心、同城災備中心和異地災備中心,非常重要。但是異地+多中心的模式,給網路視覺化運維管理帶來極大挑戰。

        北京智和信通自動化運維方案透過多維管理檢視,對不同品牌、型別、版本的網路裝置、安全裝置、無線裝置、儲存、主機、中介軟體、資料庫、虛擬化、應用服務、影片監控等IT資源進行統一、全方位、多層次的綜合管理,實時分析資源當前效能和執行狀態,直觀反映資源的動態變化對支撐業務的影響。

銀行架構拓撲示意圖

3.3.端到端全鏈路視覺化

        從整體維度到區域性維度全面展示銀行網路內裝置鏈路各項指標,整體可觀測、可告警、可分析、可統計,透過實時監控各個埠以及每條線路的通斷情況和效能指標,結合專業的流量監控分析能力,對鏈路容量進行即時監控,並生成流量分析報告,為容量規劃提供依據。

        針對銀行雙運營商網路的模式,對雙鏈路進行管理,透過不同顏色展示主備線路,支援自動切換監控線路,實現主線路掉線裝置顯示紅色,副線路掉線裝置顯示棕色,全掉線顯示灰色。

鏈路綜合資訊示意圖

3.4.全網資源統一監控

        本方案實現網路裝置資訊高頻採集,並結合智慧演算法,實現對整體網路架構、裝置執行狀態、業務可用狀態的實時資訊採集和感知。透過對銀行網路中海量裝置的智慧解析和關聯分析,結合全流量採集分析能力,形成整個網路通訊鏈路的多端網路流量分析鏈,助力運維人員從多個維度實現對相應告警的智慧分析,解決傳統運維監控中關聯資料缺失,輔助排障資訊不足的問題。

3.4.1.全網軟硬體裝置統一監控

        方案針對銀行網路內各類裝置、業務系統構建統一、智慧監控體系,對業務系統、作業系統、基礎設施、主機儲存、資料庫、中介軟體、虛擬化、雲、資料中心機房等全方位監管。遮蔽廠商、型號差異,全面掌握銀行網路整體執行情況和執行效能,能高效、快速、精準進行故障定位診斷。

裝置資源視覺化顯示

3.4.2.全網頻寬、流量監控與回溯分析

        方案基於海量流量資料的儲存挖掘,實現對網路流量的偵測分析。透過網路流量分析技術,採集、分析、儲存所有網路流量,回溯分析資料包特徵、異常網路行為,以多維資料分析和深度挖掘為手段,實現資料包層面的流量追蹤,發現潛伏於網路中的未知攻擊。

        針對銀行中業務專線、物聯網專線等專線線路管理需求,透過實時監控和定期對專線線路的使用情況進行統計分析,為每條專線的擴容或縮容提供資料依據。

全網流量監控與回溯分析示意圖

        從裝置、介面、IP、服務、應用、會話、QoS等層級的實時流量監控和歷史流量分析,識別頻寬消耗較大的應用程式、服務、協議或 IP 地址,避免網路容量過載,並提升終端使用者網路體驗。

3.4.3.IP地址分配與管理

        銀行對IP地址管理的單一性與安全性存在極高要求,北京智和信通自動化運維方案支援端到端規劃、部署、管理和監控IP 地址。透過智慧IP掃描能力,定義多層次子網,掃描其範圍內每個IP地址的當前狀態,包括IP地址,MAC地址等資訊,也可以檢視IP段內地址使用詳情,便於銀行資訊科技部進行IP地址分配管理等。

        透過埠檢視及列表檢視的形式,展示當前IP地址的使用情況,可檢視某個子網的IP現網詳情資訊,如IP、掩碼、主機名、裝置型別、現網MAC、現網接入裝置、現網接入埠、規劃MAC、規劃接入裝置、使用人等,可批次分配IP地址,保障了IP地址使用的單一性。


        透過黑白名單配置,透過黑白名單功能用來檢測使用者所關心的裝置是否在網路中出現及出現時間,對非法接入裝置進行告警處置。支援IP-MAC繫結,對全網MAC和IP進行配對繫結,並週期性對MAC-IP進行檢測,當IP-MAC的繫結關係發生衝突時產生告警,保證入網終端安全可信。

3.4.4.影片裝置集中監控

        本方案可對不同品牌、不同型號的攝像頭進行統一運維,融合網路高畫質、智慧分析、多級管控為一體。支援監管影片監控體系涉及的影片前端裝置(攝像頭、卡口、編解碼器),傳輸裝置(光纖收發器、EPON 等)內場裝置(網路與安全裝置、主機/虛擬機器、儲存裝置)、機房動力環境等多種裝置,等統一接入、集中管理。並透過網路拓撲一鍵自動發現生成能力,直接生成影片系統視覺化拓撲,透過定時輪詢和事件上報進行可用性和健康度檢查。


        平臺輕鬆對接多品牌、型號攝像頭,透過onvif介面協議和智慧化識別技術,實現對影片畫面自動偵測、自動提取,主動監控發現和分析出攝像機裝置常見的故障,如裝置不連通、畫面偏色、訊號缺失、清晰度異常、亮度異常等問題和原因,並及時在拓撲圖中顯示出當前影片監控的可用情況。

3.4.5.裝置模型庫監管無限制

        方案採取使用者自定義裝置型別及其裝置資源的方式,賦予使用者自定義適配裝置的能力,最大可能地支援對不同裝置型別的支援。透過自定義裝置型別及其裝置資源,最大限度上提高了智和網管平臺的管理範圍,真正實現了對裝置及其資源的全面化管理,達到管控萬物的目標。


3.5.全面適配國產信創環境

        平臺以JAVA程式語言為基礎,從功能塊、資料庫、介面全部基於統一JAVA技術平臺和統一資料關係模型。

        智和信通國產信創能力採用Java、HTML5跨平臺技術,全面相容國產化作業系統、資料庫、中介軟體、CPU和虛擬化等,支援包括:中標麒麟、銀河麒麟、中科方德、達夢、人大金倉、南大通用、神州通用、華為虛擬化、H3C虛擬化、深信服虛擬化等。

3.6.業務可用性管理

        銀行業務系統流程從終端使用者側的櫃面、網銀、手機銀行,到ESB業務系統匯流排,再到後端核心系統,每個環節互相關聯影響。本方案以保障業務可用性為基礎,透過對承載業務的IT基礎設施構建真實的業務模型。

銀行業務系統示意圖

        方案透過構建業務系統與部門、IT資源及關鍵指標的關聯關係,整合前端、應用、後臺任務、外部服務、資料庫及基礎設施,直觀呈現面向服務的業務系統體系架構;直觀、便捷地幫助運維人員對銀行內辦公系統、交易系統、支付系統、網銀系統、基金系統、保險系統、官網、手機APP系統等進行監控,掌握業務的執行狀態和健康水平,瞭解業務動態變化趨勢,快速定位故障源,降低運營風險。

業務看板示意圖

3.7.實時故障預警,及時洞察異常資訊

        北京智和信通銀行資料中心自動運維方案,透過統一的故障管理平臺,將各個模組中的監控資訊統一採集、分析,實現整個銀行網路中各種事件資訊、裝置故障、網路異常、流量異常等告警,以智慧化手段進行標準化的分析、壓縮、並歸關聯等,透過多種方式實時傳達告警資訊,保證落實到指定人員進行處理,為銀行提供主動式的故障解決方案。

        全面採集銀行內所有聯網裝置,如儲存、伺服器、路由器、交換機、防火牆、虛擬化、雲、自動提款機、自動存款機、存摺補登機、多媒體查詢機、印表機、開卡機等裝置、資源、應用、服務等的狀態資訊,透過對告警機制以及閾值的設定,第一時間獲取準確的告警資訊,快速定位告警裝置,提升告警處理效率,降低因裝置故障帶來的損失。


3.8.全覆蓋IT資源自動巡檢

        傳統的人工巡檢,尤其是應用巡檢,缺乏統一的規範、標準,導致巡檢的範圍和深度都存在一定的侷限性,並且是基於人工的手工統計,工作效率比較低,同時耗費較大的人力資源。

        本方案依託平臺將以前依賴手工進行的日常巡檢轉換為自動化、定時執行的巡檢策略。制定統一的巡檢指標、巡檢方式、巡檢頻度等,保證巡檢標準化、巡檢範圍、巡檢深度;透過設計巡檢作業、資料採集方式、自動化作業排程等實現日常巡檢的自動化,代替手工工作,提高效率的同時,解放管理人員,釋放管理人員更多的精力,使更多的精力處理更重要的事項。

3.9.網路變更實現人工+智慧

        銀行網路對運維的顆粒度和精細程度均有較高要求,運維過程中網路人員將面對每日數以百計的網路變更及調整,相關的變更從使用者域訪問控制到變更投產,都需要投入大量的人力進行變更內容的評審和準備。在安全合規的前提下,將運維人員從整體的變更流程及變更內容的準備中解脫出來,實現網路變更、裝置配置自動化。


3.10.人工運維與故障自愈結合

        透過實時發現告警,進行預診斷分析,判斷告警型別和級別,如果是一般告警,平臺進行自動恢復,如果是嚴重複雜告警則透過告警通知、運維工單等形式通知運維管理人員,進行人工處理。同時,將只能有專家處理的各類操作和判斷轉化為可存在於平臺內的流程,形成可保留可複用的運維知識。

3.11.全場景實現自動災備切換

        透過一鍵啟停的應用控制和場景觸發,簡化人工操作,實現快速災備切換。保障在遇到系統故障、業務崩潰等災難時,自動將源端業務切換到備端資料中心,從而保障業務的連續性,實現業務的高可用。

3.12.靈活編排,多運維場景支援

        自動化運維編排,可實現完全根據使用者場景,定製化設計運維劇本,真正將運維任務託管至平臺,全面解放人力。

  • 開發環境自動化,如軟體程式碼自動化更新、自動化編譯、自動化打包、自動化釋出預生產環境。
  • 應用釋出自動化,如服務自動化升級、軟體自動化部署等。
  • 故障自愈能力,如網口異常自動關閉、磁碟爆滿自動清理、非法裝置入侵阻斷、CPU空間不足自動重啟等。
  • 定時服務重啟,如在工作日每天晚上定時關閉應用,每天早上自動重啟應用等。
  • 智慧批次裝置管控,如批次裝置策略執行,當裝置的配置狀態不一時,能夠基於當前裝置自身的狀態自動決策適合於本裝置的管控操作等。
  • 定期裝置健康狀況自檢,如定期裝置健康狀態自檢、服務執行狀態自檢等。
  • 基於HTTP介面自動化,如基於HTTP介面的工單自動化、審批自動化、業務自動化等。
  • 高可用服務自動切換,如主備資料庫執行狀況自檢異常自動切換,服務執行狀態檢查主備切換等。
  • 虛擬化、雲服務資源自動化擴容,如在虛擬化環境資源不足時自動化根據實際情況進行擴容。
  • 日常運維自動化,如自動化定期執行批處理cmd\sh指令碼、自動化定期資料清洗、自動化定期環境檢查並匯出報表等。

3.13.積累形成運維知識庫

        在銀行日常網路運維服務中,重複的故障和請求約佔到70%,只有30%的故障真正需要專業人員來解決,知識經驗對提升重複工作的效率起到了至關重要的作用。

        透過智和網管平臺自動化運維的能力,將只能有專家處理的各類操作和判斷轉化為可存在於平臺內的流程,形成可保留可複用的運維知識,減少因誤操作帶來的損失,保障運維效率。以規範的流程進行運維作業,保障關鍵資料的完整合規。

3.14.視覺化資料分析

        利用圖形、圖表、圖表等易於理解的形式,提取和分析大量複雜的銀行網路中各類運維資料,呈現分析結果,從而幫助運維人員在短時間內更好地理解和獲得更多的資訊,幫助運維部門能夠實時瞭解業務和其所依賴IT資源的執行狀況,以及提供系統運維和最佳化的指示和依據。

        適配各種應用場景,二十四小時不間斷監控,細粒度可達網路中每個裝置、資源和鏈路。所有的網路故障都一目瞭然地呈現,大大降低了管理成本,同時也提高了運維人員處理故障的能力,節省的故障處理時間,為運維人員管理網路提供了可靠的保證。

3.15.資產全生命週期監管

        對於銀行的網路資產管理,採取統一資料標準,對整體網路資產進行梳理和呼叫,避免資產資訊在運維繫統和實物間的差異,減少網路運維過程中資訊不一致、資料不統一等問題透過平臺將資產實物與運維資料庫一一對應,解決網路裝置在日常運維過程中出現“脫管”或“半脫管”的問題,實現對整體銀行網路內IP、ARP、MAC介面資料,訪問控制資訊,應用系統資訊,網路地址及效能容量、裝置資產配置容量、機房佈線容量資訊的集中管理。


        建立健全資產臺賬,實現一機一檔,透過自定義多級資產分類,細化資產類別,實現資產分類管控,提高資產精細管理程度。從資產入庫、領用、變更、維修、調撥、到報廢處置,資產每一步操作均實現完整記錄,支援追溯,透過平臺實現資產整個生命週期的全流程閉環管理,使得IT資產每一次生命週期變更,都有流程可依、都有跡可循,從而實現全面的IT資產監管。

3.16.定製化運維工單體系

        透過方案實現運維工單“無紙化”,支援於裝置和故障管理頁面快速建立工單,把控故障處理進度,透過工單平臺簡化故障處理流程,形成自動化故障處理機制,並在每個處理流程的節點上責任到人,實現在快速響應故障的同時,實現兼顧運維流程管控。

 

        透過建立工單服務基準,預設工單在不同優先順序、不同狀態時,受理人應該響應的時間及未響應時的處理方式,生成工單自動化處理規則,並以多種方式進行通知,避免超時響應提升全流程服務管理質量。

 

3.17.多級部署適配全國一網結構

        在“全國一網”資料集中管理的背景下,一旦關鍵節點出現故障或受到攻擊,極可能引發連鎖反應,波及全行,造成區域性或全行性異常。因此銀行資料中心的運維工作不僅要確保總中心的生產安全,更重要的是要保障各分中心、各個節點的安全執行。全行執行統一的運維標準和要求,橫向到邊,縱向到底,一體化管理。

        因此,北京智和信通為銀行採取多級運維平臺部署方案,採用綜合-區域-裝置運維平臺-裝置的結構,部署多級架構運維平臺方案,上級運維平臺可以檢視下級運維平臺(包含其子集)的監控資訊,綜合運維平臺可以管理所有裝置,下級運維平臺對本區域內單位或本單位網路進行管理。每級運維平臺可以單獨監控各自的網路裝置,也可以由綜合運維平臺集中管理。


智和網管平臺多級部署示意圖

        實現上級運維平臺對各二級單位的網路裝置執行資料的採集、管理、儲存,整合資料庫進行資料的本地儲存,並透過安全的傳輸方式將資料上傳至綜合運維平臺。

部署方案優勢:

  • 對於銀行總部平臺,可對接下層分行子平臺,支援完整的網路、裝置、資源、告警、事件等資料同步
  • 對於分行子平臺,可完成其下各網點、機房等的裝置群,可具有平臺完整的監控、管理許可權。
  • 子平臺支援橫向水平擴充套件,隨著專案規模靈活增設
  • 支援聯動資產平臺、工單平臺、呼叫中心等,提供一體化運維解決方案


第4章 方案應用價值

        透過部署智信通自動化運維方案,將傳統手工繪製的網路拓撲圖升級到了網路拓撲視覺化,將傳統表格式的網路資源管理升級到了應用級的網路資源視覺化,將傳統的網路定點抓包分析升級到了應用級的網路流量視覺化,將傳統的經驗式故障定位升級到了清單化的自動檢查定位。實現“高可用、高效能、高質量”運維管理體系,

        在降低故障發生機率的同時,在故障發生後,“早感知、快定位、急止損、優改進”,降低影響範圍。不但保障網路基礎架構穩定性的關鍵效能指標,而且透過運維自動化提升整體網路團隊的能力。

第5章 標杆案例

5.1.某農商銀行雙鏈路監控

        由於農商行是移動+電信雙線路模式,其核心是想對雙線路進行管理,監控各鄉鎮網點的網路狀況,明確移動和電信哪條線路出現問題,及時進行處理。

  • 實現對市和各鄉鎮網點的監控;
  • 實現每臺裝置上電信與移動雙ip監控;
  • 實現對交換機的詳細管理,包括效能、故障等;
  • 將拓撲介面投影到大螢幕上進行展示。

需求實現

        智和信通提出了智和網管平臺+定製開發的方案,基礎需求採用智和網管平臺成熟功能,並針對農商行雙線路的情況進行部分開發。

  • 透過開發,實現雙線路監控,實現自動切換監控IP;
  • 由於農商行的網點型網路結構,設計透過裝置顏色對雙線路進行展示,主線路掉線裝置顯示紅色, 副線路掉線裝置顯示棕色,全掉線顯示灰色;
  • 透過自動切換監視IP,實現對裝置不間斷的故障、效能等監控。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70011401/viewspace-2942850/,如需轉載,請註明出處,否則將追究法律責任。

相關文章