雲平臺儲存應急演練常見問題分析

danny_2018發表於2023-11-21

相比於傳統架構成熟的應急處置體系,業界關於雲平臺儲存開展應急演練和管理方面則稍顯欠缺。本文將梳理雲平臺儲存應急演練與傳統IT架構的區別,列舉雲平臺儲存常見的故障場景,並分析如何針對各類場景更有針對性的制定應急演練計劃。

俗話說,“光說不練假把式”。IT系統的應急演練是實現企業驗證業務連續效能力、組織、預案、團隊能否滿足既定目標的最佳方式。隨著雲端計算技術的推廣,雲平臺儲存逐漸成為一種有效解決企業海量資料儲存和管理問題的方式。但相比於傳統架構成熟的應急處置體系,業界關於雲平臺儲存開展應急演練和管理方面則稍顯欠缺。以下內容將進一步梳理雲平臺儲存應急演練與傳統IT架構的區別,列舉雲平臺儲存常見的故障場景,並分析如何針對各類場景更有針對性的制定應急演練計劃。

一、居安思危,雲平臺儲存的應急演練缺失之殤

雲平臺儲存能夠對企業日常生產過程中產生的不同型別非結構化資料進行統一儲存和管理。企業可選擇相應型別的雲平臺儲存(包括檔案儲存、物件儲存、塊儲存等),並利用分散式儲存架構所提供的軟體即儲存能力,構建具有高可用特性的企業雲服務的基礎儲存服務層,為雲上各類的微服務應用提供雲端儲存和雲共享服務。可以說雲平臺儲存的底層架構設計比傳統儲存更加關注資料和服務的永續性和高可用性,不僅為上層應用提供了更為靈活的軟硬體一體化部署模式,同時也兼具更加健壯的高可用模式。

但很多企業沒有針對雲平臺儲存形成一整套成熟的應急演練機制,大多數應急方案仍然是針對傳統儲存架構所設計的。雲平臺儲存在開展應急演練和容災管理方面,應更加關注彈性雲端計算資源、雲硬碟裝置、分散式儲存裝置等服務。

但是在開展應急演練方面和管理方面,則需要基於現有云上的業務策略,按需配置雲端儲存的保護例項,並透過儲存同步複製技術、磁碟對映技術、資料快取冗餘等技術構建雲端儲存的高可用性,為業務提供資料的可靠性以及業務連續性。在演練過程中,通常是將雲端儲存彈性雲伺服器的資料、配置資訊複製到容災站點,並支援應用所在的伺服器停機期間從另外的位置啟動並正常執行,從而提升業務連續性。相比於傳統儲存,基於雲平臺儲存的容災方式,能夠更好的降低容災建設成本。

二、有備無患,雲平臺儲存應急演練中的常見問題分析

相比於傳統儲存較為成熟的應急預案、流程,針對雲平臺儲存的應急演練進行測試和評估,則可發現大多存在如下問題:

1. 缺乏針對雲平臺儲存的演練標準體系

由於基於雲平臺儲存的業務平臺,採用分散式計算機儲存系統,天然形成了資料冗餘儲存、具有自動恢復機制,提高了儲存資料抵抗外界諸如硬體故障、單臺儲存裝置故障等不可抗風險。因此,在構建基於雲架構的演練標準體系方面,缺乏了應有的關注。

筆者認為構建基於雲平臺儲存的演練體系應至少應包括:

1)明確雲平臺儲存突發事件應急各環節中的角色和責任,提高雲平臺儲存各項響應和操作能力; 對儲存的運維也從硬體層面轉變為對應用和微服務的支撐。

2)構建雲平臺儲存應急演練手段技術體系,利用真實可模擬的微服務儲存故障等突發事件應急環境,增強參演人員的心適應能力和調整能力。

3) 明確雲平臺儲存在應急演練各環節關鍵的功能要素,包括SSD雲盤的IOPS、吞吐量和訪問時延。並據此從定性和量化兩個方面構建科學的演練效果評估指標體系;

2. 缺少以雲原生視角去拓寬演練領域的思路

分散式雲端儲存日益複雜,但是業內普遍缺乏以雲原生視角去擴充套件演練領域的思路,僅僅是按諸多傳統架構中不存在的不確定因素。比如,機器高負載、網路異常、磁碟 IO、節點排程等故障,以及雲平臺自身的資源、應用服務、容器以及基礎設施各環節導致的問題。

筆者認為以雲原生視角拓寬演練領域至少應該包括如下顆粒度。其中,以下幾項尤為重要:

1)評估IaaS層、PaaS層是否健壯:模擬雲端儲存不可用,驗證系統的容錯能力、測試排程任務是否自動遷移到可用節點。

2)衡量容器及微服務的容錯能力:檢視發生故障的節點或例項是否被自動隔離、下線,流量排程是否正確,預案是否有效,同時觀察系統整體的QPS或RT是否受影響。

3)驗證容器編排配置是否合理:模擬殺服務Pod、殺節點、增大Pod資源負載,觀察系統服務可用性,驗證副本配置、資源限制配置以及Pod下部署的容器是否合理。

4)驗證監控告警的時效性:對系統注入故障,驗證監控指標是否準確,監控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監控告警的準確和時效性。

三、戰時心不慌,梳理雲端儲存應急預案場景

針對不同型別的雲端儲存型別及故障場景建立不同的應急預案

場景一:塊儲存叢集中,單臺裝置故障無法正常使用

使用技術:備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的備份副本);RTO = 2-3Hour(200G 資料需恢復需10Min)。

業務恢復步驟:選擇儲存卷及備份副本,完成雲端儲存及業務恢復。

場景二:檔案儲存中的部分非結構化資料被誤刪除或丟失

使用技術:備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的檔案);RTO = 30Min-2Hour(200G 資料需恢復需10Min)。

業務恢復步驟:選擇虛擬機器及備份副本,確認丟失檔案的路徑,選擇恢復的目標,完成丟失檔案的恢復。

場景三:物件儲存損壞或丟失

使用技術:備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的檔案);RTO = 30Min-2Hour(200G 資料需恢復需10Min)。

業務恢復步驟:選擇資料庫副本檔案進行資料恢復,恢復後確保資料完整性及資料庫可用性。

場景四:核心業務系統發生當機無法快速恢復

使用技術:透過 RP 技術進行恢復

RPO = 30sec ;RTO = 5min。

業務恢復步驟:選擇相應的時間點,進行容災切換,將備機直接開啟,並確認業務是否可以使用。

雲平臺儲存的應急切換演練能夠顯著減少和預防企業在雲架構模式下發生安全事件。在當下,數字化轉型時代逐步會成為構建業務連續性方面需要考慮的重要環節。然而與IT傳統架構在應急演練方面的所具備的成熟體系和經驗相比,在雲架構模式下,對雲平臺儲存的應急演練起步較晚且存在諸多不足,亟需從標準體系、演練領域、演練流程、演練形式、人才等角度進行完善、創新。

【作者】珺禕 某國有銀行系統架構師

來自 “ twt社群 ”, 原文作者:某國有銀行系統架構師 珺禕;原文連結:https://mp.weixin.qq.com/s/V-HZlX_REVSkJPC3H9Z_2w,如有侵權,請聯絡管理員刪除。

相關文章