資料中心基礎設施高可用提升研究與實踐

陶然陶然發表於2022-05-17

  伴隨國家對金融安全的關注度不斷提高,資料中心基礎設施作為業務安全的關鍵節點,其高可用能力成為實現銀行業務連續性目標的核心關鍵因素。本文以資料中心基礎設施的網路系統為例,結合網路架構和網路運維能力的現狀,從技術架構、運營能力兩個方面開展案例分析,總結提出系統分層級的高可用提升方法,並圍繞高可用技術、運營能力轉型實踐展開了分析說明。

  近年來,隨著國家對金融安全的關注度不斷提高,以及銀行業數字化轉型的持續深入,金融科技領域的業務連續性水平成為衡量銀行服務品牌競爭力與行業聲譽的一項重要指標。與此同時,資料中心基礎設施的高可用能力作為確保生產業務安全穩定的重要支柱,不僅是商業銀行達成監管要求的必備條件之一,而且對保障社會穩定、控制金融風險也有著極為重要的現實意義。

   一、商業銀行資料中心可用性分析

  在資訊科技領域,可用性主要指基於各類計算機裝置的連線組合,使構建的企業資訊系統可以穩定支撐業務連續運作,並在系統級的生命週期內不發生影響業務辦理的故障。對於商業銀行而言,資料中心基礎設施本身是一套極為複雜的技術體系,綜合部署包括裝置、網路、伺服器等在內的各類資源,其可用效能力主要由各類基礎設施的系統可用性決定,並同時受到裝置產品、架構設計、運營能力等多種因素的影響。在量化評估方面,系統可用率的指標評價通常遵從業界常用的衡量方法,即從99%到99.999%俗稱“幾個9”的量化指標體系,資料中心可用性示例見表1。

  表1 資料中心可用性示例

  當前,隨著商業銀行數字化轉型的不斷深入,各種新技術、新架構持續迭代更新,並對轉型過程中的系統高可用能力帶來了極大挑戰。對此,商業銀行在進行高可用設計時不僅要對產品、技術、架構等進行可用性評估,加強對新技術、新架構的風險控制,還需要引入高效的自動化工具提供自主可控的運營服務,特別是強化出現生產故障時的應急處置能力,減少和消除意外出現的生產故障中斷時間。尤其在運營能力方面,首先要打造一支思想統一、技能齊備的技術團隊,既能夠遵從安全第一的工作要求,具備嚴謹、審慎的合規意識,同時還需掌握專業技術、具備創新意識,能夠通過DevOps、SRE的方法打造適合自身使用的特色化工具。此外,運營能力建設離不開配套的自動化工具支援,以更好地滿足資料中心雲化後的大規模運維需求以及資料中心高可用要求。

   二、資料中心基礎設施高可用提升方法及案例說明

  本文以資料中心基礎設施中的網路系統為例,結合網路架構和網路運維能力的現狀,從技術架構、運營能力兩方面開展案例分析,總結提出系統分層級的高可用提升方法,並圍繞高可用技術、運營能力轉型實踐等展開了分析說明。

   1.基礎設施可用性提升

  網路系統作為資料中心基礎設施的核心元件之一,其系統可用性內容大致可劃分為裝置級可用指標、功能級可用指標、區域級可用指標、園區級可用指標等四個層級,並依次自下而上構成了資料中心的高可用能力之一(如圖1所示)。其中,網路架構高可用設計以增加網元、線路、節點、區域等結構冗餘度為核心思路,旨在使每一層均能夠充分應用技術路線的可擴充套件能力,進而基於各層級的高可用能力建設,最終順利到達並具備業務可用層能力。在這一階段,業務連續性指標可達到99.999%的可用率,並作為核心能力之一,支援向使用者提供高價值的數字化產品和服務。

  圖1 資料中心繫統可用性分級

  裝置級可用重點強調單臺網路裝置的產品級可用率及支援網路單元(NU)的可用性。單裝置可用性即網元層級可用性指標,起步按99.99%可用指標要求部署網元,落實產品技術和部件冗餘的技術要求。同時,該層級可用能力還需關注裝置的執行時長因素,裝置可用性指標在超過5年以上時會逐年下降,需及時更新置換對應節點的裝置。舉例來說,核心環節交換機、路由器裝置基於自身雙電源、多埠、雙引擎等硬體技術冗餘,應支援裝置連續執行保持在年度99.999%及以上的可用率。

  功能級可用重點強調一個網路區域內多臺同等功能的網路單元對外服務的可用率。功能節點可用性即核心節點層級的可用性指標,按照網路技術發展的支援情況,擴充套件核心功能節點的網元裝置群組可支援的冗餘數量,如目前已有功能節點在技術上支援部署2臺以上裝置,包括交換核心、網際網路接入、資料中心互聯等環境。舉例來說,基於技術產品的發展成熟度,生產網路中的區域核心交換機按照雙機雙活搭建,交換核心、路由器等裝置可按照2~4臺的數量搭建,網際網路接入渠道功能節點按照單園區6臺搭建,而上述措施均為通過架構設計的冗餘,旨在賦予裝置在故障情況下的網路功能節點高可用能力。

  區域級可用重點強調多臺網路裝置通過特定方式互接提供網路連通服務的區域可用率。網路區域可用性即單個網路區的可用性指標,網路區主要由不同網路單元的功能節點互相連線而成,泛指提供伺服器接入、訪問控制、路由轉發、負載均衡、儲存連線等多種網路服務的網路系統。從冗餘設計的角度來看,“雞蛋不要放在一個籃子裡”,因此需要對網路區的部署規模進行控制,如資料中心可按照多個網路區冗餘進行架構設計,以及將應用分佈到多個區域執行,以避免因單個網路區異常產生全域性影響。舉例來說,在資料中心規模持續增長的情況下,提供計算資源接入服務的網路區域建設按照冗餘架構的設計考慮,可搭建2個以上的邏輯隔離區域,以支撐應用單元化部署和計算資源的分散式部署,同時應將雲資源域規模限制在1000臺左右,並搭建2個以上的基礎服務功能相同的資源域。

  園區級可用重點強調資料中心不同網路區組合支援大規模計算資源正常運轉服務的可用率。園區可用性即資料中心單個園區網路的可用性指標,在該層級中,網路的可用效能力取決於網路架構設計的耦合程度,以及區域間出現異常後的隔離能力。在園區級的網路中,如果下一個層級出現的異常事件與多個網路區存在耦合,則往往不能及時隔離影響,進而導致產生園區級的網路可用性問題。舉例來說,網路架構可在多個園區間複製搭建,用以支撐資料中心多個園區的同等網路服務支撐能力,並按鬆耦合結構進行設計,保持多個園區間的互聯互通,以實現園區級網路在異常情況下的高可用切換。

   2.運營能力提升路徑

  運營能力提升涉及ITIL流程中的變更、應急等各個方面,其中針對變更實施、應急實施的自動化工具是保持可用率的核心關鍵,而不同生產運維能力上限對應的可用率指標大致可分為人工級、自動級、智慧級等三個層級。

  人工級是指通過預設操作命令,手工實施部署。該層級可用率在資源充分投入的情況下,一般可以支援3個9到4個9的專業系統可用率。例如,在運維操作全生命週期的管理和技術流程中,大量生產維護工作均由人工處理,當出現影響業務的重大故障時,問題的定位效率較低,應急處置時間多數超過30分鐘,且部分情況下或將長達1~2個小時。

  自動級是指通過工具實現自動化操作、人工按鍵式處理或告警觸發式處理。該層級可用率在資源充分投入的情況下,可以支援4個9以上的專業線系統可用率。例如,生產運營中的標準運維操作大多通過自動化工具完成,包括管理流程、技術操作、日常運維等內容,當出現影響業務故障時,即可通過一鍵式應急自動化工具進行隔離、切換等應急操作,從而將業務影響時間控制在30分鐘之內。

  智慧級是指通過引入AI弱智慧技術,預防式發現隱患,並在發生故障時工具自主開展全鏈條自愈恢復。該層級可用率在資源充分投入和技術發展成熟後,可以支援5個9以上的專業系統可用率。例如,在生產運營的運維工作中,在標準操作被自動化完成後,針對非標準運維操作,則可以基於智慧化工具開展預防性監測,進而在故障隱患影響到業務前,執行有效預判並開展計劃性維護,提前解決影響業務執行的問題。

   三、未來展望

  綜上,資料中心可用率在以一年為週期統計的高可用模式下,其可用率指標應保持在99.99%以上,而最終目標是提升至99.999%的世界一流水平,全年網路當機時間控制在5.4分鐘以內。然而,上述指標對當前資訊系統的可用性要求可謂非常之高,而在前述網路系統案例中,通過對可用性進行分層設計,並結合架構設計和運營團隊建設,將可有效支援資料中心的高可用提升。未來,隨著運維智慧化等IT技術的持續演進,資料中心的高可用提升路徑也將愈加豐富,通過“技術+運營”兩方面創新,將不斷驅動資料中心基礎設施的高可用水平提升,進而更好地保障國家網路安全和社會金融穩定。

來自 “ FCC30+ ”, 原文作者:夏剛;原文連結:https://mp.weixin.qq.com/s/RYlUPh0MCI3aJmfl4SvpdQ,如有侵權,請聯絡管理員刪除。

相關文章