詳解智慧運維一體化建設實現路徑

danny_2018發表於2023-03-20

某農商銀行高度重視資訊化的建設與發展,不斷引入新的資訊科技技術和理念,逐步促進銀行服務的形態和內容更新,在服務理念、經營模式等多個方面實現轉型升級。伴隨而來的是某農商銀行科技資訊系統規模的不斷擴大,虛擬化、大資料、智慧化等新技術的不斷應用,導致IT運維管理的規模和複雜程度不斷增加。為了提高某農商銀行運維管理能力,增強運維管理效率,實現對資訊科技系統執行的全方位管控,某農商銀行不斷學習借鑑前沿的運維管理技術理念,並結合銀行資訊科技發展現狀,研究並實踐出一條符合中小金融機構的智慧運維一體化發展路線,並在此基礎上不斷實踐完善。

建設背景

伴隨著某農商銀行資訊科技的迅猛發展,早期分散式、粗粒度、低效率的IT運維管理模式已經難以滿足現有規模大、多層級、全覆蓋的運維管理需求,迫切需要透過管理和技術手段來提升運維能力。近年來提出的AIOps表達了智慧運維一體化的先進理念,並在大型的金融和網際網路機構形成了一些成功的應用案例,但是作為中小金融機構,從IT規模、人員配備、投資預算各方面都難以支撐商業大型一體化運維管理平臺的實施與應用,所以某農商銀行必須走一條符合自身條件、可行可控,並能夠迭代發展的AIOps建設之路。

(一)建設思路

1、流程驅動運維:借鑑ITIL運維流程標準,定製適合某農商銀行實際的運維管理流程平臺;

3、工具驅動運維:採用運維開發模式,實現運維任務的自動化、工具化、視覺化;

3、資料驅動運維:基於大資料採集、儲存、分析技術,對運維資料進行全面挖掘和分析,實現資料驅動運維;

4、平臺驅動運維:透過建立統一運維平臺,整合貫通CMDB、流程平臺、監控平臺、作業平臺、資料分析處理平臺,形成智慧運維一體化解決方案。

(二)實現路徑

按照以上建設思路,結合某農商銀行的實際情況,將智慧運維一體化建設的實現路徑劃分為五個階段的演進過程。

階段一,視覺化運維

透過對原有監控平臺的基礎功能發掘擴充套件,並結合BPC(旁路式業務效能監控)、Web撥測、統一日誌分析審計系統等技術,實現監控平臺全方位展示業務健康狀態指標。

階段二,標準化運維

制定體系化的運維管理制度、規範運維管理流程,並結合CMDB配置平臺,實現資產和運維管理的標準化。

階段三,自動化運維

採用自動化運維工具和統一作業平臺,透過運維流程編排、自定義指令碼開發,實現批次巡檢、補丁升級、安全加固等不同場景的自動化維護。

階段四,數字化運維

透過將所有運維和監控所採集的資料在大資料平臺上進行轉換、清洗和管理,實現數字化建模,用於支撐運維場景最佳化、故障原因分析和智慧決策。

階段五,統一運維管理平臺

透過搭建統一運維管理平臺,整合CMDB、流程平臺、作業平臺、大資料平臺等元件功能,實現各個元件之間的資料共享和聯動,最終實現智慧運維一體化建設。

階段一:運維視覺化建設

運維視覺化建設的總體目標,一是實現某農商銀行科技資訊系統執行狀態的多維度展現,二是實現對業務系統故障的精確告警,三是實現執行資料的採集,同時提供介面為後期的大資料平臺提供資料支撐。為實現上述目標,某農商銀行採用了商用智慧監控管理中心、開源監控平臺、BPC旁路流量分析系統和日誌分析審計系統相結合的方式。

(一)監控平臺的實施及擴充套件

智慧監控管理中心是下一代業務智慧管理平臺。它以統一的風格提供與網路、主機相關的各類管理、控制、監控功能,同時以開放的、元件化的架構向其承載業務提供分散式、分級式互動管理。智慧監控管理中心是某農商銀行進行網路和主機監控的統一平臺。

某農商銀行初期透過智慧管理中心實現了對資料中心網路、主機的基礎硬體、系統容量、效能等基礎指標的監控和告警功能,但是針對業務系統、批次作業、應用日誌的監控告警還需透過人工操作進行。為了實現視覺化管理,並能夠做到業務系統故障能夠及時準確的在監控平臺上統一展現,同時各項資料能夠進行統一收集儲存,某農商銀行對智慧管理中心進行了定製化改造,透過整合監控平臺、應用系統日誌、作業系統日誌,並結合自定義指令碼程式等方法,實現了對資料中心基礎硬體環境和業務系統的統一監控管理。所有伺服器作業系統採用Syslog協議將系統錯誤、應用告警、跑批告警資訊等 E rror級別資訊,透過監控指令碼傳送至I告警平臺,Info級別資訊,傳送至日誌審計。已知業務告警均為指令碼觸發,觸發級別為3(Error),經過和告警平臺商定,根據大屏告警關鍵字為"JTGL",實現所有告警都會被記錄,並實現有關鍵字的告警會有額外提示。

(二)網路流量智慧分析系統

透過智慧管理中心,我們實現了對作業系統、資料庫、中介軟體等IT基礎環境的統一監控能力,但是無法透過應用系統的實際業務應用情況對事件進行判斷和預警,為此我們引入了BPC產品來進行視覺化管理的補充。

BPC(Business Performance Center)產品基於先進的協議解碼技術,將網路真實資料作為客觀實時的資料來源,經處理後,呈現出高價值的業務可用資料來源,BPC對網路真實資料的解讀準確率可以達到100%,並自動發現業務訪問與依賴關係。此外,還可應用於實時風險透視,大大強化了金融企業的風險檢測能力。

某農商銀行採取對資料中心核心網路節點實時流量進行映象,將映象流量匯入BPC平臺,並針對特定業務的交易資料流進行分析處理。實現對流量、應用、節點、會話四大類數十種預製報表的自動生成,並支援Netflow、Netstream、Sflow等多種效能資料格式。使用特定處理的資料能夠建立告警基線,實現異常流量自動告警。並能夠實現對故障原因的分析預判和準確定位。整體架構如下圖所示:

(三)日誌集中管理系統

各類網路裝置、作業系統、資料庫、中介軟體及應用系統日誌的集中處理,能夠準確分析 某農商銀行IT系統的安全、效能、容量、及軟體缺陷,併為最佳化改進提供可靠依據。為此某農商銀行同時進行了日誌分析系統的建設。透過採購日誌分析審計裝置,實現了對網路、主機及應用系統日誌的統一收集分析,並能夠以定製報表形式視覺化輸出。

透過一體化監控平臺、BPC網路流量分析系統、日誌分析審計系統的建設,某農商銀行形成了立體的運維視覺化系統。透過這些手段,目前已經能夠做到系統故障的自動化精確告警,大大提高了運維管理效率,並形成了大量的運維資料,為後期的大資料平臺提供了資料來源,為數字化運維奠定基礎。

階段二:標準化運維建設

為保障運維工作的質量和效率,應制定完善、切實可行的運維管理制度和規範,確定各項運維活動的標準流程和相關職責,使運維人員在制度和流程的規範和約束下協同操作。標準化運維建設的第一步就是建立起適合某農商銀行實際運維情況的管理制度和規範,結合此規範進行運維流程的梳理和開發。

某農商銀行在運維流程平臺建立的過程中,充分借鑑了“ITIL v3”IT服務管理標準,結合 某農商銀行IT系統現狀和科技人員結構,對流程進行了定製改造,使之更符合某農商銀行現階段的運維管理需要。同時,為了使流程平臺具有開放的定製能力和可擴充套件能力, 某農商銀行基於JAVA框架進行了平臺的自主開發,現已完成事件管理、變更管理、釋出管理、資源環境管理、機房管理等基礎流程開發,並在實際工作中得到了充分應用。

在完成流程平臺建設的基礎上,某農商銀行進一步進行了配置管理平臺的建設。透過長期的摸索和探討,某農商銀行定位CMDB主要提供兩個核心能力的場景,一是自動化運維場景;二是資料化運維場景,這也是我們設計的面向應用的IT資源的核心框架。傳統的CMDB往往都是面向資源和裝置的,但是站在更高的視角來看,脫離了應用和業務,其實裝置並沒有獨立存在的價值,所以在建設CMDB時,採用基於最底層的基礎資源視角來向更上層的應用和業務進行建設。根據以上建設思路,某農商銀行對各種配置管理產品和軟體進行了評估測試,確定採用開源軟體、自主定義資源模型、CI元素的方式進行CMDB建設,逐步建成一套核心IT資源圖譜,能夠和監控平臺、流程平臺、作業平臺等進行聯動,並能夠資源自動發現、自動更新,最終成為整個IT運維基礎平臺的核心紐帶,貫穿整個運維管理過程。

階段三:自動化運維建設

對自動化運維體系的需求,是隨著業務的增長、對運維效率和質量的要求不斷提高而產生的。某農商銀行前期伺服器的安裝、軟體部署、服務釋出和監控都是透過手動方式來完成的,需要運維人員登入到伺服器上,一臺一臺去管理和維護。這種非併發的線性工作方式是制約效率的最大障礙。同時,因為手動的操作方式過於依賴運維人員的執行順序和操作步驟,稍有不慎即可能導致伺服器配置不一致,也就是同一組伺服器的配置上出現差異。有時候,這種差異是很難直接檢查出來的。隨著業務的發展,伺服器數量越來越多,某農商銀行開始轉向使用指令碼工具。確實提升了效率和工程質量,但這個方式仍然有很多問題。第一是指令碼的非標準化的問題。不同運維人員寫的指令碼在所用的程式語言、編碼風格和健壯性方面存在巨大差異,同時這些指令碼的版本管理也是一個挑戰。第二是指令碼的傳承問題,人員的離職和工作交接,都會導致指令碼無法很好地在運維人員之間傳承和再利用。所以對構建自動化運維體系的要求變得越來越迫切。透過自動化運維體系來實現標準化和提高工程效率,是唯一正確的選擇。某農商銀行根據目前IT運維管理的主要工作內容,將自動化運維管理分成兩部分,一是日常維護任務的自動化管理,二是資料備份恢復的自動化管理。

日常運維任務的自動化管理某農商銀行選用Ansible自動化運維工具來實現,並配合 Ansible tower 圖形管理工具進行視覺化管理。Ansible基於Python開發,集合了眾多運維工具(Puppet、Chef、Func、Fabric)的優點,實現了批次系統配置、批次程式部署、批次執行命令等功能。Ansible不需要在遠端主機上安裝Client/Agents,因為它們是基於SSH來和遠端主機通訊的,所以它不會對生產系統帶來任何安全和效能方面的影響,符合金融行業對系統安全穩定性的高要求。

目前某農商銀行已經實現按照應用系統劃分的自動化管理群組,根據不同應用系統的運維管理任務進行了自動化指令碼編排,完成了從整體任務(自動化巡檢、補丁更新、策略下發)到區域性任務(應用系統定製指令碼執行、批次檢測)等多維度的自動化運維管理策略,大大提高了運維管理效率。

在自動化備份管理方面,某農商銀行已經建立完成集中備份管理平臺,透過集中備份管理軟體實現資料庫、應用程式、檔案及作業系統的自動備份。同時,某農商銀行透過指令碼編排實現了自動化的資料庫恢復演練場景,定期對資料庫備份檔案進行恢復測試,驗證備份的有效性。

階段四:數字化運維建設

數字化運維的目標是建立一個基於主流大資料架構的業務系統大資料分析平臺。平臺具備開放的採集和資料管理能力,將資料統一整合,支援資料的靈活展現和統計;同時,利用機器學習演算法,依據大資料分析模型,實現業務系統告警的預測、安全事件分析、 交易量預測分析等場景。

基於九商現有環境,可從集中監控平臺、BPC平臺和日誌分析系統收集全網業務系統資料,集中整合加工,建立業務系統大資料分析平臺。建設目標為,一是提供業務概覽、業務統計等展現功能支撐銀行監督與決策;二是提供告警預測、交易預測等大資料分析能力輔助運維人員進行業務監控以及故障處理;三是提供使用者管理、選單管理、許可權管理等系統功能支撐系統管理員進行系統的日常維護。

( 一)技術架構

某農商銀行數字化運維體系計劃整體採用開源元件整合建設,基於Hadoop大資料系統,結合Kafka、ElasticSearch等元件形成整套的資料收集、整理、分析平臺。實現以業務資料、監控資料為主,其它資料按需接入的可定製化資料分析系統。

(二)功能架構

數字化運維繫統整體分為四層:

第一層為資料採集層:透過配置採集任務,對不同資料來源的資料按照編排排程進行統一採集管理;

第二層為資料管理層:根據實際業務需求進行資料整理和建模;

第三層為自定義分析層:根據已整理的結構化和非結構化資料進行我報表定製和釋出;

第四層為業務分析層:在此層將會根據某農商銀行的實際業務需求進行各個維度和功能的展示和應用。

下圖為某農商銀行中間業務系統的業務資料分析展示情況:

階段五:統一運維管理平臺建設

在完成以上運維管理建設任務的基礎上,下一個任務就是完成運維管理平臺的建設。根據某農商銀行科技資訊系統發展的現狀,平臺建設的目標定位在一個能夠整合現有運維管理工具,以CMDB作為底層支撐,各元件有機聯動的中輕量級平臺。最終目的是提供更清晰的運維管理流程和任務,更精準全面的監控手段,更智慧的預警分析能力。

某農商銀行統一運維管理平臺功能架構將按照下圖進行設計實施:

IT運維管理框架從邏輯結構上劃分為五個平臺和一箇中心配置庫,分別是資料展現平臺,流程管理平臺,集中監控平臺,自動化管理平臺,歷史資料分析平臺以及CMDB配置管理核心庫。

1、監控平臺:構建整個IT監控架構,兼顧網路、主機和業務系統,實現集中事件管理。

2、流程平臺:整合並標準化運維的日常工作,將日常的工作規範,並透明化。

3、展現及報表平臺:建設統一報表平臺和統一門戶平臺將有效增強資料利用和展示效果。

4、自動化操作平臺:完成對整個IT操作的集中管控和自動化。

5、統一報表平臺:集中存放歷史資料,提供後期統一分析及規劃。

6、配置管理資料庫:記錄完整的、準確的IT環境中各元件的資訊和彼此間的關聯關係,作為唯一、可信的資料來源,為周邊系統提供支撐資料。

總結

在移動化、大資料、雲端計算、人工智慧等新技術的推動下,IT技術架構悄然變遷,從傳統“IOE架構”走向“網際網路架構”。網際網路架構所涉及的雲端計算、敏捷開放、微服務等元素成倍劇增,使得運維壓力越來越大。這樣的趨勢下,運維管理模式從ITIL向DevOps演化,運維管理工具也發生了從ITOM、ITOA到AIOps的顛覆性變革。某農商銀行科技團隊將本著“科技驅動業務、科技驅動服務、科技驅動風控”的理念,兼顧歷史與未來需求,滿足執行穩定與敏捷發展需要,不斷強化自身能力,向智慧運維一體化方向不斷努力,走出一條符合中小金融機構特色的運維管理之路。

來自 “ twt企業IT社群 ”, 原文作者:twt企業IT社群;原文連結:https://mp.weixin.qq.com/s/eesvPr6zJojrmmrMKiQeZA,如有侵權,請聯絡管理員刪除。

相關文章