金融企業基於業務可用性管理建立監控管理體系的實踐與應用

danny_2018發表於2024-03-04

【摘要】本文基於金融企業業務可用性管理的監控管理體系現狀,深入探討監控管理體系的建設實踐與應用,從監控系統、一體化運營管理平臺、自動化控制三個方面展開分析,以期為銀行監控管理的發展提供可供借鑑的發展思路。

【作者】錢立鎵,負責某城商銀行監控系統管理和建設,具有豐富的監控系統建設、運維及專案管理經驗。參與某城商銀行統一監控平臺、應用效能監控平臺、自動化管理平臺等多個運維管理平臺架構設計及建設工作。對資料中心監控體系建設、自動化運維有深入研究和應用。

金融企業在日益複雜的市場環境中,隨著金融業務的快速發展,業務系統變得越來越複雜,對可用性的要求也越來越高。一旦業務系統出現故障,可能導致嚴重的經濟損失和聲譽損害。因此,金融企業需要關注業務可用性管理,確保關鍵業務始終處於穩定、高效的狀態。面臨著業務可用性管理的挑戰。在這一背景下,金融企業需要不斷完善監控管理體系,以提高業務可用性,進一步降低風險。

業務可用性管理涉及多個方面,包括業務連續性規劃、故障恢復、效能最佳化等。金融企業基於業務可用性管理的監控管理體系是確保業務穩定、高效執行的關鍵。透過實時監控、故障恢復和效能最佳化等手段,金融企業可以提高業務可用性,降低風險,為市場競爭提供有力支援。大資料及人工智慧技術在監控領域的應用使銀行系統的監控面臨更為重要的機遇和挑戰,銀行服務主體對業務可用性要求不斷提高,尤其需要不斷最佳化現有監控平臺及監控策略,需要形成監控標準化體系,因此,監控管理亟待更新監控管理辦法,制定相適應的管控策略。本文基於金融企業業務可用性管理的監控管理體系現狀,深入探討監控管理體系的建設實踐與應用,從監控系統、一體化運營管理平臺、自動化控制三個方面展開分析,以期為銀行監控管理的發展提供可供借鑑的發展思路。

一、銀行監控管理的痛點和難點

從近幾年的金融企業監控現狀來看,監控系統面臨的主要問題有:普遍存在不同監控平臺監控策略待最佳化、告警事件、資料歸集分散的問題。監控工具方面,監控工具展示的更多的是面向專家和技術人員使用的監控檢視,對ECC一線整體監控視覺化需求的實現不足。業務監控方面,自動化巡檢及處置流程覆蓋面積小,覆蓋場景單一,缺乏有效的自動化開發管理流程。我們在現有問題的基礎上積極探索解決方案,概括來講,根據監控資料現實及服務需求制定了“監-管-控”一體化的閉環管理方案。

二、“監-管-控”監控管理體系最佳化策略

(一)監:基於業務系統可用性管理的監視指標體系

為了確保業務系統的穩定執行,企業需要建立一套完善的監視指標體系。基於業務系統可用性管理的監視指標體系主要包括以下幾個方面:基礎元件監控、應用系統監控、業務系統架構分佈和詳細故障定位資訊。

一是基礎元件監控方面,主要關注操作系、中介軟體、資料庫及網路裝置等基礎軟硬體執行情況和效能,以ITM和ZABBIX為基礎監控資訊採集核心,透過syslog和snmp等標準協議,將儲存、網路裝置、安全防護等專有裝置的監控事件統一歸集管理,利用Omnibus形成標準的監控告警事件,與簡訊平臺、ITIL平臺進行資料整合,形成標準的事件處理流程。

二是應用系統監控方面,主要關注響應時間、交易量及交易成功率等應用效能指標和應用系統執行情況,針對標準化日誌和資料庫交易流水錶等交易資訊進行實時監控,並透過大資料分析平臺對應用日誌進行統一採集、歸檔、展示分析;新增應用心跳監測日誌,確保在不同交易特徵時段都可實時掌握應用可用性資料,保障監控資訊可靠、有效。

三是針對業務系統架構分佈的情況,開發報警事件架構分佈圖,根據系統架構層級關係、告警事件及應用對映快速定位,並與自動化工具整合,形成聯動,如儲存IO故障,導致應用緩慢故障告警的根本原因定位,採取容災切換規避等。

四是針對應用或業務場景故障,製作基於業務日誌的實時故障分析展現檢視,如ATM交易流水中,他代本報錯,是全部他行報錯,還是部分他行報錯,處理的機制不同等。

五是提供針對告警事件、業務日誌的AIops智慧化分析功能,針對告警事件和日誌異常進行告警提示,協助管理人員快速發現、定位故障。

透過業務系統架構分佈圖將各類告警資訊進行串聯和優先順序定義,便於在多個系統和基礎元件同時報警時,根據業務系統提供服務的層級關係和基礎元件的歸屬關係對優先順序高的故障節點進行優先處置。並針對大量告警事件將常見的和影響特別大的故障場景進行歸納總結,形成告警--確認--授權--自動處置的快速處置流程。比如某類三方交易經常發生擁堵導致故障傳導到前端系統造成全域性擁堵事件,對此首先針對該三方交易擁堵進行監控,當該告警產生後,與管理人員確認並透過授權,由值機人員啟動應急處置流程,關閉該三方交易通道,避免造成前端系統和全域性擁堵事件,減小異常影響範圍。後續經由業務人員分析確認,該故障有第三方原因導致,關閉後對我方無影響後,將確認與授權過程進一步壓縮,由監控告警直接觸發自動化處置流程,關閉通道,值機人員僅對此操作進行確認和跟蹤關注,極大的提高了故障處置效率,縮小了故障影響範圍。

圖1:運維監控技術架構規劃與功能定位

(二)管:基於業務連續性管理目標的一體化管控平臺

一是透過一體化運維管理平臺實現針對監控物件及其構成元件的自動化登記,以及各元件的監控策略部署控制,並與監控工具整合,實現實時控制。建立監控檔案管理,確認監控物件的監控覆蓋情況,隨時補充監控策略需求。利用一體化管理平臺熟悉應用系統監控告警策略情況,確認監控告警有效性。監控管理規劃指標與策略對應關係,便於應用管理員與系統專家理解監控策略與指標分類。

二是形成監控物件—監控KPI—監控策略—監控例項化的監控檔案管理體系,針對監控事件和監控策略進行編碼,形成結構化的告警事件管理和策略管理。設定監控熱度圖,能夠對資料中心重要的被管理物件進行統一監控展示;按照管理層、技術專家和ECC一線值班不同角色視角,建立屬於不同角色的監控檢視;熱度圖從左到右,從上到下展示被管理物件的業務影響關係,快速定位跟因事件;將二線技術專家的知識庫,透過巡檢流程,實時監控業務系統可用性,出現重要事件時,能第一時間手工獲取業務系統可用性狀態;將被管理物件資料標籤化儲存,為智慧運維資料分析做技術準備。

三是與CMDB整合資料,並形成可由容災管理平臺呼叫的資產管理資料來源,向各應用平臺提供資產及監控策略管理資料。

四是持續最佳化監控策略與制度:根據監控實踐反饋,不斷最佳化監控策略與制度。這有助於提高監控工作的有效性,確保業務可用性得到持續改進。

圖2:監控物件與策略、工具的統一管理:監控管理與監控工具整合控制

(三)控:基於容錯容災應急處置場景的自動化控制工具

自動化控制可以從以下三個方面進行改造升級:

首先,針對各類報警事件及其相關場景,開發對應的巡檢處置流程,整理常見故障和告警的判別場景手冊,如,網銀系統交易響應時間過長報警,配合中介軟體監控排查擁堵路徑,定位擁堵路徑後,關閉前端交易指示開關,重啟應用程序,再開啟前端交易指示開關,恢復交易路徑正常執行 ,需工具實現固化,便於執行與管控。

其次,在現有流程的基礎上開發標準化的容災容錯處置流程,形成標準化、自動化的容災容錯處置機制,開發自動化排程流程,針對多系統同時切換時的時序排程和邏輯關係進行線上化、自動化管理。

最後,一體化運維管理平臺與自動化處置平臺、容災管理平臺進行資料介面整合及排程任務整合功能,實現透過統一平臺管理排程自動化任務,並將告警事件場景與對應的處置流程線上對接管理;同時能夠針對巡檢任務反饋資料展示巡檢結果。

三、“監-管-控”監控管理體系的積極意義

“監-管-控”監控管理流程能夠最大程度最佳化業務處理。

一是透過細分化的專業檢視將抽象的應用系統邏輯關係、基礎設施與業務系統的關聯關係等視覺化,在大量報警事件同時產生時,有利於直觀的定位故障影響範圍和報警事件優先順序情況,幫助值機人員明確故障處置的優先順序,提高關鍵故障的解決效率。

二是監控策略自動化同步併線上管理可以最大程度上的保證資料的一致性和準確性,做到監控策略與監控物件匹配的實時更新,在保障監控物件來源(CMDB)資料準確的前提下,管理人員可以快速定位監控策略盲點,透過分析監控覆蓋情況,有針對性的補充監控策略。

三是我們透過不斷的監控告警場景-自動化處置任務的開發積累,可以做到針對發生過的故障快速定位、快速處置,保障了應用系統的業務可用性,提升客戶體驗。

四是透過一體化運維平臺整合資料介面,作為監控體系內的資料中臺,提升監控體系的資料治理能力,提高整體資料中心的資料一致性和管理效率;並透過一體化運維平臺將整個“監-管-控”的三部分串聯起來,形成一個有機的整體,打通監控管理的資料通道,實現“監-管-控”這一閉環管理流程。

五是為了達到事件統一管理,海量的、格式化的監控運維事件可以作為AIops的資料來源,進行針對AIops新技術的開發和探索,透過聚類演算法等AI技術,對海量監控運維事件進行分析,有利於運維人員快速準確的發現、分析和定位問題。智慧化監控將成為主流。隨著人工智慧、大資料和雲端計算等技術的發展,金融企業可以利用智慧監控手段,實時收集和分析業務執行資料,預測潛在風險,並採取相應的措施進行防範。智慧化監控不僅能提高企業對業務執行的把控能力,還能有效降低人力成本。

四、監控系統方案的未來發展趨勢與展望

(一)由於監控物件和監控策略的線上化管理,監控物件的來源主要是配置管理資料庫(CMDB),監控策略的來源主要是監控系統自身,所以在監控策略例項化(監控物件與監控策略進行匹配)的過程中可以對雙方的資料來源進行二次複核,提高配置管理資料庫的資料準確性,同時也可以增強監控策略的覆蓋率;但該項工作可能需要定期的透過人工確認和複核,需要有與之相匹配的管理流程和人員定期跟進。

(二)自動化處置流程的開發是一個場景與處置流程的積累過程,可以理解為運維監控體系的流程化知識庫,將報警事件-場景-處置流程自動化的串聯起來後,透過不斷完善整個資料中心的故障處置知識庫,將盡可能多的故障場景納入到自動化可控流程中來,既可以節省資料中心的人力成本,也可以提高資料中心的故障處置效率。

(三)現在各廠商或開源軟體提供的AIops工具有很多,但是在實施落地AIops專案的時候,資料來源往往成為專案的瓶頸所在,具有資料來源分散難於採集,資料來源型別過於離散難於分析等問題,在完成一體化運維管理平臺的建設後,相當於具備了監控體系資料中臺的功能,將分散的資料集中於此,並進行初步的格式化和標籤化,為後續作為AIops的資料來源提供了環境基礎。

(四)智慧化監控將成為主流。隨著人工智慧、大資料和雲端計算等技術的發展,金融企業可以利用智慧監控手段,實時收集和分析業務執行資料,預測潛在風險,並採取相應的措施進行防範。智慧化監控不僅能提高企業對業務執行的把控能力,還能有效降低人力成本。

(五)一體化監控成為發展趨勢。在過去,金融企業的監控體系分散在各個業務部門,導致資訊孤島現象嚴重。如今,企業開始推進一體化監控,將各個業務部門的監控資料進行整合,實現全域性性的業務可用性管理。一體化監控有助於企業全面瞭解業務執行狀況,提高決策效率。

(六)精細化監控成為重要發展方向。隨著金融業務的細分,企業需要對各個業務環節進行精細化監控,以確保業務流程的順暢。精細化監控要求企業對業務資料進行深入挖掘,找出潛在的風險點和最佳化空間,從而提高業務可用性。

(七)敏捷化監控逐漸受到關注。在金融市場競爭激烈的環境下,企業需要快速響應市場變化,調整業務策略。敏捷化監控可以幫助企業實時關注市場動態,迅速識別和解決業務執行中的問題,提高企業競爭力。

五、結語

金融企業在面對日新月異的業務環境和日益嚴峻的競爭壓力時,基於業務可用性管理的監控體系建設顯得尤為重要。本文從實際出發,論述了監控系統方案提出的背景、主要內容、最佳化策略、優勢及未來發展趨勢和展望。隨著智慧化、自動化的推進,我們認為“監-管-控”監控管理體系能夠最佳化整體系統性管理,實現自動化執行,進一步提高運維效率,降低運維風險,從而形成管理上的良性迴圈。透過對監控體系的核心要素、關鍵環節和實施策略的深入剖析,為金融企業提供了一套切實可行的監控管理方法。

來自 “ twt企業IT社群 ”, 原文作者:twt社群;原文連結:https://mp.weixin.qq.com/s/xKA_IAjCFCjPRoKwXgcn7Q,如有侵權,請聯絡管理員刪除。

相關文章