如何建立雲端儲存應急演練體系及進行場景設計?

danny_2018發表於2022-11-11

雲端儲存技術的應用很大程度上降低了企業構建同城和異地容災的成本,相比於傳統儲存架構,雲端儲存具有完全不同的業務特徵,比如在資料的一致性同步規則和資料更新粒度等方面,這些業務特徵和應用模式的明顯區別,使雲端儲存的高可用保護及應急體系建設都區別於傳統儲存。本文將基於雲原生和企業雲架構體系的視角,分析如何構建雲端儲存演練的標準體系,透過雲端儲存幾種常見的高可用容災技術,梳理在不同故障場景下的應急切換流程,建立符合雲端儲存標準的應急預案。

一、雲端儲存演練的必要性分析

雲端儲存演練的重要性

隨著雲端計算技術的推廣,雲端儲存逐漸成為一種有效解決企業海量資料儲存和管理問題的方式。針對企業日常生產過程中產生的不同型別非結構化資料,企業可選擇相應型別的雲端儲存(包括檔案儲存、物件儲存、塊儲存等),對非結構化資料進行統一儲存和管理。利用分散式儲存架構所提供的的軟體即儲存能力,幫助企業構建了雲服務的基礎系統服務層,為雲上各類的微服務應用提供了雲端儲存和雲共享服務。

針對雲端儲存及雲平臺的基礎設施建立應急切換演練機制,能夠顯著提升企業處理資訊保安事件響應能力、降低和預防發生資訊保安事件產生的損失,保障業務連續性。針對企業核心資料、核心儲存裝置,建立一整套完善的應急預案,構建應急處置機制,並驗證應急保障預案的有效性等環節,已經成為業務連續性中重要環節。

雲端儲存VS傳統儲存

雲端儲存相較於傳統的儲存架構,雲端儲存的容災服務通常包括為彈性雲端計算資源、雲硬碟裝置、分散式儲存裝置等服務提供容災的服務。這些服務不僅為上層應用提供了更為靈活的軟硬體一體化部署模式,同時也兼具更加健壯的高可用模式,尤其是在開展應急演練方面:可以基於現有云上的業務策略,按需配置雲伺服器、雲端儲存的保護例項。並透過儲存同步複製技術、磁碟對映技術、資料快取冗餘等技術構建雲端儲存的高可用性,為業務提供資料的可靠性以及業務連續性,從而確保容災備份的RPO為0,在演練過程中,雲端儲存將彈性雲伺服器的資料、配置資訊複製到容災站點,並支援應用所在的伺服器停機期間從另外的位置啟動並正常執行,從而提升業務連續性,相比於傳統儲存,基於雲端儲存的容災方式,能夠更好的降低容災建設成本。

二、雲端儲存應急場景及標準體系建設

雲端儲存切換演練及場景建設

根據企業業務連續性相關要求,結合雲端儲存的特點和現狀,對應急演練的內容、實施過程以及預期效果,梳理雲端儲存的應急演練特別應該注意以下幾個方面:

首先,確立組織演練規劃小組,並確定演練範圍及週期:前期的演練會盡量降低複雜度,在零風險的前提下進行多次小規模演練,提升管理人員的災難恢復能力。

設計演練場景並制定恢復策略:針對應急預案設立不同的演練場景及相應的恢復策略。

最後進行實戰演練及總結:監控並記錄整個恢復過程,驗證災難恢復流程及備份資料的有效性。

構建基於雲架構的演練標準體系

由於基於雲架構的業務平臺,採用分散式計算機儲存系統,天然形成了資料冗餘儲存、具有自動恢復機制,提高了儲存資料抵抗外界諸如硬體故障、單臺儲存裝置故障等不可抗風險。因此,在構建基於雲架構的演練標準體系方面,要投入更多的關注, 覆蓋基礎設施到應用層,底層環境(物理機、虛擬機器、容器)及作業系統(Linux、Windows)、應用容器編排等方面。作者認為構建基於雲端儲存的演練體系應至少應包括:

(1)明確雲端儲存突發事件應急各環節中的角色和責任,提高雲端儲存各項響應和操作能力; 在關注雲架構環境中,傳統的儲存裝置管理員轉變成devops開發運維工程師,對儲存的運維也從硬體層面轉變為對應用和微服務的支撐。

(2)利用多手段組合的方式,構建雲端儲存應急演練手段技術體系; 利用真實可模擬的微服務儲存故障等突發事件應急環境來訓練參演人員,增強參演人員的心適應能力和調整能力,縮短突發事件應急現場的適應期;

(3)明確雲端儲存在應急演練各環節關鍵的功能要素,包括SSD雲盤的IOPS、吞吐量和訪問時延。並據此從定性和量化兩個方面構建科學的演練效果評估指標體系;

(4)針對現行傳統儲存的應急預案、政策法規及應急流程進行測試和評估,發現缺點和薄弱環節並進行針對性改進; 發現應急資源準備和保障的缺點和薄弱環節;改進各個環節所涉及組織機構之間的協調和溝通能力;

以雲原生思維拓寬演練領域

分散式雲端儲存日益複雜,演練領域的確定,也需要拓寬思路,考慮到諸多傳統架構中不存在的不確定因素。比如,機器高負載、網路異常、磁碟 IO、節點排程等故障,以及雲平臺自身的資源、應用服務、容器以及基礎設施各環節導致的問題。

以國內某雲端儲存為例,分析雲端儲存相關的各層次下常見故障場景:

基於上述的故障場景,雲端儲存的容錯機制通常包括:

雲磁碟快取

將資料快取在雲磁碟中,對常用的資料進行備份,因此,當使用者再次訪問同一資料時,就從快取中訪問,大大縮短了訪問時間。在雲端儲存容災中,將資料資訊快取在容災系統中,可以實現對資料的備份和快速恢復。

其中,資料容災的快取技術,通常有2種實現方式:

第一,本地容災磁碟的飽和計算,該種方法是指透過對單位時間內資料恢復的次數進行統計與計算,替換恢復次數較少的資料塊;

第二,對異地資料資訊的恢復計算,所謂的異地資料資訊恢復計算是指,透過單位時間內資料塊恢復的次數確定是否對異地資料塊進行替換。

對映技術

對映技術在一般情況下對雲磁碟和程式管理之間形成的對映關係進行處理,它是完成資訊儲存的主要技術,對映關係的出現導致了資料的自動遷移,而自動遷移是由一種指令的觸發而形成的自動化操作,如:資料的自動儲存、複製和貼上、刪除。

當雲磁碟遭到損壞後,將對映技術應用到資料容災中,容災系統就會自動接收到該項指令,並對相關資料進行對映操作。在使用對映技術時,還可對磁碟的透明進行替換,建立雲端儲存環境,然後在雲端儲存環境中將對映的資料進行多項複製和備份到容災系統中,同時,為了避免磁碟的損壞導致資料的永久不可還原性,在資料備份的過程中可以同時建立多個副本。

儲存鏈路冗餘

由於資料容災系統涉及主節點與冗餘備份節點,因此將它們連線起來的互聯技術在容災中十分重要。目前,主節點與冗餘備份節點之間的連線主要是光纖通道連線,主要是基於SAN的遠端複製,即透過光纖通道FC,把2個SAN連線起來,進行遠端複製。當災難發生時,由備份資料中心替代主資料中心保證系統工作的連續性,這種遠端容災備份方式存在的一些缺陷是:實現成本高,裝置的互操作性差。

資料連續性保護(CDP)

Continuous Data Protection(CDP)是一個實時的資料備份系統,它自動將應用資料的所有變化實時記錄下來。它的關鍵是將每一個應用資料的變化加上了時間索引。這樣,當出現資料丟失、資料損壞或者安全問題時,就可能恢復到最近的完好資料。CDP技術不斷進步,在資料損耗的情況下,其允許快速的資料恢復,並把資料還原到生命週期任一指定點。

三、雲端儲存演練流程及應急預案的建立

完善演練程式流程

目前在傳統架構的應急演練流程中,企業已意識到應急演練的重要作用,希望透過演練提升自身的應急響應能力。然而在雲端儲存也缺少規範化的演練程式,容易出現演練方案不合理、演練指令碼不細緻、人員培訓不到位、保障準備不充分等問題,導致雲端儲存的演練質量達不到預期要求。針對此問題,應針對雲架構的特點,探討演練持續改進方法和流程,設計一套演練程式管理體系,實現從規劃、設計、實施到評估和改進的全方位管理,逐步完善雲端儲存的應急演練流程,使其更有效地驗證應急預案的科學性、可行性、有效性。

評估IaaS層、PaaS層是否健壯

透過模擬底層的基礎設施或者平臺資源負載,驗證排程系統的有效性;模擬依賴的分散式儲存不可用,驗證系統的容錯能力;模擬排程節點不可用,測試排程任務是否自動遷移到可用節點;模擬主備節點故障,測試主備切換是否正常。

衡量容器及微服務的容錯能力

透過模擬呼叫延遲、服務不可用、機器資源滿載等,檢視發生故障的節點或例項是否被自動隔離、下線,流量排程是否正確,預案是否有效,同時觀察系統整體的QPS或RT是否受影響。在此基礎上可以緩慢增加故障節點範圍,驗證上游服務限流降級、熔斷等是否有效。最終故障節點增加到請求服務超時,估算系統容錯紅線,衡量系統容錯能力。

驗證容器編排配置是否合理

透過模擬殺服務Pod、殺節點、增大Pod資源負載,觀察系統服務可用性,驗證副本配置、資源限制配置以及Pod下部署的容器是否合理。

驗證監控告警的時效性

透過對系統注入故障,驗證監控指標是否準確,監控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監控告警的準確和時效性。

豐富演練場景,建立基於雲端儲存的應急預案

演練場景可以說是業務連續性預案中最為核心的內容。在雲架構模式下,針對雲端儲存的演練場景,根據每個故障領域確定演練場景,每個場景下設定演練模板和指令碼。再發起演練階段,只需要選擇好演練場景,即可發起。

雲端儲存故障演練可適用於以下典型場景:

1、雲端儲存部署在不同的雲平臺或者混合雲(包括公共雲及專有云)場景中,兩朵雲同時提供服務,災難場景下進行快速切換,需要統一的容災管控並確保資料一致性。

2、不同型別的雲端儲存裝置,包括檔案儲存、物件儲存、塊儲存。

針對不同型別的雲端儲存型別及故障場景建立不同的應急預案:

場景一:雲端儲存叢集中,單臺裝置故障無法正常使用

使用技術:資料連續性保護技術(CDP)

RPO =1Day (可恢復 1 天前的備份副本);RTO = 2-3Hour(200G 資料需恢復需 10Min)。

業務恢復步驟:

選擇儲存卷及備份副本,完成雲端儲存及業務恢復。

場景二:雲服務中的檔案儲存誤刪除或丟失

使用技術:雲磁碟快取技術

RPO =1Day (可恢復 1 天前的檔案);RTO = 30Min-2Hour(200G 資料需恢復需 10Min)。

業務恢復步驟:

選擇虛擬機器及備份副本,確認丟失檔案的路徑,選擇恢復的目標,完成丟失檔案的恢復。

場景三:物件儲存損壞或丟失

使用技術:備份一體機 DP 進行恢復

RPO =1Day (可恢復 1 天前的檔案);RTO = 30Min-2Hour(200G 資料需恢復需 10Min)。

業務恢復步驟:

選擇資料庫副本檔案進行資料恢復,恢復後確保資料完整性及資料庫可用性。

場景四:核心業務系統發生當機無法快速恢復

使用技術:透過 RP 技術進行恢復

RPO = 30sec ;RTO = 5min。

業務恢復步驟:

選擇相應的時間點,進行容災切換,將備機直接開啟,並確認業務是否可以使用。

四、總結

雲端儲存的演練場景是整個演練體系中非常重要的環節,將同業務系統的所有云磁碟放置在一致性組下,業務恢復時選擇測試選項。容災恢復軟體會將一致性組下災備的業務系統全部開啟,並允許讀寫,同時將這些虛機放置在一個孤立的網路下,確保不會對生產環境造成影響。然後由業務人員對災備的業務系統進行測試,確保災備業務系統的可用。

針對雲端儲存的應急切換演練能夠顯著減少和預防企業在雲架構模式下發生安全事件,成為企業在數字化轉型時代,構建業務連續性方面需要考慮的重要環節,也是減少損失和影響的重要手段之一,受到各行業的高度重視。然而與IT傳統架構在應急演練方面的所具備的成熟體系和經驗相比,在雲架構模式下,對雲端儲存的應急演練起步較晚且存在眾多不足,亟需從標準體系、演練領域、演練流程、演練形式、人才等角度進行完善、創新,實現工業資訊保安事件應急處置能力的有效提升。

作者:willow,某商業銀行系統工程師,專注於銀行基礎架構設計、系統網路規劃與運維管理工作。在虛擬化、容災備份、自動化運維領域有著豐富的專案實踐經驗。

來自 “ twt社群 ”, 原文作者:willow;原文連結:https://mp.weixin.qq.com/s/iRqxpq0m3RgUZYZEE98BAg,如有侵權,請聯絡管理員刪除。

相關文章