銀行數字化運維轉型應對之道

Linksla發表於2022-03-15

一、 銀行運維的發展和演進

隨著數字化發展浪潮, 移動網際網路、大資料、雲端計算、AI技術等金融科技業態逐步向傳統金融領域滲透,銀行業務系統越來越龐大,系統之間的關聯越來越複雜,金融科技的不斷髮展一方面為傳統銀行業的跨越升級插上了騰飛的翅膀,另一方面也給資料中心運維帶來了極大挑戰。業務的高速增長始終離不開運維的強有力支撐,銀行資料中心從部件級運維到一體化發展,資料中心的內涵也從單一資料儲存場所向智慧運營不斷演進。

01、 單一資料儲存階段

在單一資料儲存階段, 資料中心的 運維重點是伺服器、儲存和網路,主要承擔的功能是資料儲存和管理,集中儲存了銀行的業務資料。處於此階段的資料中心功能比較單一,整體可用性低,業務連續性要求不高,僅僅便於資料的集中存放和管理,面向單套業務系統的儲存和應用,運維管理粗放,資源臺帳不清,運維人員時刻處於“火線”邊緣。

02、 資料整合管理階段

資料整合管理階段是資料中心運維管理的轉型階段,此時資料中心組織專門的人員進行集中維護,注重運維效率,為業務系統提供有效支撐。有些做得比較好的資料中心已經開始整合CMDB,自動化整合ITSM流程,透過雲服務實現自動化的服務交付,對系統維護上升到了管理的高度,從事中干預、事後處理慢慢過渡到事前預防。業務連續性要求較高,IT系統的可用性已經作為部門KPI列入年度考核,資料中心要求有較高的穩定性和可靠性。

03、智慧運維 階段

智慧運維的 資料中心,從注重運維效率轉變為更加註重運維質量,業務與科技深度融合,業務系統對資料中心的運維要求已不僅僅是支撐,而是提供安全、持續、穩定、有效的科技服務,此階段的資料中心已經演進成了金融服務提供中心,服務流程趨於規範化、標準化、統一化,並透過資訊科技實現自動化管理。資料中心整合、管理和維護了各種資源,從技術運維轉向了技術運營,實現基礎設施和服務實時交付,保證計算資源價值最大化。資料中心高可用性和業務連續性要求高,重要資訊系統應用級災備覆蓋率達到100%,且具備有效的異地資料級災備,災備接管時間為分鐘級。

二、 痛點分析

受制於 成本, 在科技人員配置和資金投入時一般都是重開發輕運維,運維管理粗放,這就不可避免地暴露了很多運維的問題和痛點。

01、 制度不規範

運維制度不規範,人人都有一套運維標準,處理 各有 差異,崗位職責邊界不清,協同 性差, 緊急問題得不到有效處置,從而運維事故頻發,帶來極大的安全隱患。

02、 流程不合理

流程的 有效性和可操作性直接影響了運維質量和運維效率。故障響應時間慢,故障定界定位難,故障處理缺乏統一有序步調,問題跟蹤方式自成一派。“煙囪式”或“救火式”運維,每位運維人員都 “救火隊員”,增加 人力成本,影響業務效率。

如今大多數中小型城商行的資料中心都部署了各類運維支撐工具或平臺,比如ITSM、自動監控平臺、堡壘機、日誌管理平臺、災備切換平臺等,但大多數運維場景下,這些工具平臺各自為政,沒有串聯形成體系,相互之間缺乏有效的流程進行編排和管理,流程和工具的銜接存在斷層,協同呼叫依賴人工進行,增加了運維投入但卻沒有簡化運維。

03、 運維技術水平低

在實際操作層,技術是運維的 核心 ,強硬的技術實力是運維體系的底座支撐。 隨著 業務迅猛發展,基礎設施快速膨脹增加了運維管理的複雜度,業務系統對IT基礎設施提出了更高的運維服務要求。多裝置、多廠家、多產品導致運維複雜度攀升,為達到高效運維,就必須利用技術手段為不同技術路線的系統環境提供統一的服務介面,整合事件處理、變更管理、服務請求、配置管理等多項流程,將流程和操作一體化,同時還需要熟悉多平臺、多業務、多工具的複合型運維人才。

但現實情況是,中小型 銀行 在運維投入上捉襟見肘,大多數運維手段還停留在人工階段,自動化運維平臺沒有充分發揮應有的效能,需 過多的人工 操作

04、 應急管理不高效

銀行業務具有較高的實時性和穩定性要求,一些面向客戶、涉及賬務處理且時效性要求較高的業務處理類、渠道類和涉及客戶風險等業務的管理類資訊系統已長期處於嚴格的監管之下,若這些重要系統發生非計劃內中斷,高效的應急管理顯得尤為重要。受限於自身原因,中小型城商行的應急管理體系建設還不夠全面,沒有形成自上而下的合力,產生了許多突出的問題。

風險防範意識不高
缺乏資訊系統風險防範意識,對資訊系統的應急管理都不夠重視,容易滋生資訊系統重大安全事件,嚴重威脅銀行的正常生產經營

災備體系不清晰
缺乏對災備體系的統籌思考和總體架構設計,災備系統架構不清晰,延展性差

系統應急 案不完善
專注與操作細節,缺乏總體規劃和統籌安排; 需要 及時總結經驗教訓,同步更新應急預案。

三、運維轉型的思考和對策

鑑於 以上 痛點分析,要實現運維轉型,須從思想上統一認識,認可運維工作的重要性;然後制定並及時維護相關規章制度和操作流程,規範運維操作人員行為,降低操作風險;最後才是最近提得比較多的,利用技術手段建設集中整合運維平臺,實現執行、監控、變更、應急等流程一體化、自動化、智慧化,達到智慧運營的目的。具體的思考和對策如下:

(一)戰略層面——管理層關注

大部分中小型城商行均沒有配備專職CIO,資訊科技部在銀行高階管理層眼裡僅僅是一個巨大的“成本中心”,不會產生實際效益,科技的重要性並沒有滲透至管理層。隨著銀行業務的快速發展,資訊科技風險以及由此帶來的衍生風險並不亞於系統性金融風險,監管部門對銀行資訊科技的監管也日趨嚴格。若高階管理層可以從戰略層面重視資訊科技,將業務與科技深度融合,關注科技體制健康有序發展,科技賦能業務,組建訓練有素的科技團隊,就能有效規避各類生產執行風險,助力業務系統持續穩定執行。資料中心是業務系統的總後方,科技部領導也應重視資料中心運維管理,為資料中心運維提供動能和驅動力。

除了要重視運維,管理層也應該為資料中心運維提供切實可行的指導思想,主要表現在以下五個方面:一是標準化,要求完善制度制定和修訂,一切工作按制度執行,有章可循,在操作上嚴格要求規範化、標準化。二是自動化,進一步提高監控、配置、作業排程等工具使用,提升運維自動化水平,降低人員操作失誤率和風險。三是集約化,深入推進“大執行”,並統籌考慮資料中心運維一體化管理工作。四是自主化,加強人員培養和崗位技能考核,對關鍵系統、關鍵崗位逐步實現自主運維。五是精細化,在運維工作的各個方面,不斷量化,力求用數字說話,加大量化考核力度。

(二) 提質降本增效

實行運維的“全生命週期”管理, 提質、 降本、 增效。

提質, 實現運維體系自身的價值。資料中心制定服務化,標準化的運維流程,主動性預測預防,最小化的應用中斷,減少系統故障率,提升業務系統的使用者體驗度。

降本,機器不是來取代人,而是將寶貴的人力成本投入到高價值領域,透過自主化運維提升人員素質,加速人才轉型,降低綜合成本。

增效,透過自動化設計提升運維效率、集約化設計提升資料中心整體資源利用率和複用率,增加CPU算力負載和網路負載效率。

(三) 技術與流程全面提升

運維過程中出現的問題中,人為操作問題和流程設計問題各佔40%,技術問題佔20%。因此,在實操層面,需要從運維人員、運維流程和運維技術三方面進行討論。

1、 運維 人員
從依賴廠商到自主可控,從標準化到指令碼化,從半自動化到自動化,不管如何調整,最終方向都是要培養自己的運維力量,做到自主運維。

2、運維流程
運維工作中的每一個步驟都要有流程、有審批、可監控、可追溯

利用流程,理清崗位職責的邊界,完善標準化流程

3、運維技術

透過統一管理實現資料中心工具(技術)、流程和制度間創新性融合,構建統一的運維管理技術平臺,完成裝置選型、規劃、上架、故障處置、變更、調優、回收全生命週期管理,從人防到技防,從粗放式運維到精細化運維。

四、小結

搭建統一運維管理技術平臺,實現資料中心全生命週期管理 形成統一的對外服務水平 達到科技賦能業務發展的最終目標。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2871245/,如需轉載,請註明出處,否則將追究法律責任。

相關文章