FT-FMEA融合混沌演練,零售運營系統韌性架構線上驗證實踐

华为云开发者联盟發表於2024-05-17

本文分享自華為雲社群《FT-FMEA融合混沌演練,零售運營系統韌性架構線上驗證實踐》,作者:《華為雲確定性運維案例集(第2期)》聶剛。

一、業務背景

某零售企業營業範圍覆蓋20+個省份、數百個城市,為千家萬戶的生活提供服務,深受大眾青睞。近年來,面對新零售和業務規模的不斷擴大,該企業致力於實現業務的全面數字化,持續開發新的IT產品,覆蓋從供應鏈到市場營銷、客戶服務到商店運營,逐步實施數字化轉型,以降低運營成本,提升運營效率。

某系統為該零售企業新開發的一款IT產品,已經上線生產環境,計劃正式啟動線下業務接入和引流。透過混沌演練對該應用生產環境的架構韌性進行一次引流前的“排雷”和“驗收”,以確保在正式引流時無重大穩定性風險。

二、業務現狀

隨著數字化轉型和業務規模的擴大,該企業新開發門店運營系統XX。該系統主體採用容器化部署,對周邊15+個系統有依賴,所依賴的系統中有超過10年的舊系統,存在較大的可用性隱患。由於擔負全部門店的運營重任,企業希望該IT系統有較高的韌性以應對意外災害、依賴系統不可用、促銷活動中瞬時大流量、運營商網路故障等潛在的故障風險。

三、方案實踐

COC平臺的混沌演練承載華為雲混沌演練的最佳實踐,包含從風險識別、應急預案制定、故障注入到演練覆盤的全流程,其中風險識別採用FT-FMEA風險分析方法論,故障注入採用自研的故障注入探針。在華為雲實踐超過4年,每年執行超3000+的自動化混沌演練,節約演練人力超過1500小時。設計流程如下:

1.PNG

1.風險識別和管理

結合XX應用的部署架構和對外依賴圖,基於FT-FMEA故障分析法分析該應用在生產環境的風險,形成故障模式。COC內建華為雲FT-FMEA故障分析法,幫助使用者從系統架構、SLO要求、故障場景分類、故障發生條件、客戶影響等方面對系統風險進行高效分析,形成故障模式。

FMEA(Failure Mode Effect Analysis)起源於NASA,主要從業務的功能點出發,列出可能的失效模式、效果和原因、相應的控制手段,結合故障的嚴重等級、發生機率和可檢測性等因素,最後對該模式得出RPN乘積分數,透過該分數可以判斷該故障模式的風險等級。FMEA給出了面向風險的故障分析方法,但FMEA中故障發生機率、嚴重程度、可檢測等級的分類等級達到10個,在實際實施時難以匹配,容易導致故障模式發散,進而影響故障管理的效率。華為雲從實踐中總結出FT-FMEA(基於容錯視角的故障場景分析法),在FMEA的基礎上,結合SRE實踐場景,融合為7維故障分析框架,是專門面向SRE場景的故障分析方法,能夠在確保故障全面分析的基礎上故障模式不發散,有效提高故障場景分析的效率和質量。

對XX IT系統在COC上使用FT-FMEA後總結的故障模式列表如下,將原來90+的故障模式融合為30+個,為後續的應急預案制定、故障注入方案設計奠定了紮實的基礎。

2.png

2.制定應急預案

根據分析出的故障模式,結合COC內建的華為雲應急預案指導模板和該零售企業的運維實際情況,對每一個故障模式制定對應的應急預案。COC支援全自動化、自動化+人工混合,這兩種方式的應急預案,以應對不同故障模式的應急恢復所需。

3.png

3.制定演練計劃

基於故障模式,結合該IT系統的業務繁忙時段,在COC上制定好演練計劃。

4.png

4.設計故障注入方案、執行演練、應急恢復

針對故障模式,結合應用的部署情況,設計演練方案,以驗證該IT系統的自愈能力、應急預案能力、運維人員的恢復能力。

1)根據選擇的故障模式,在COC上選擇攻擊目標和攻擊場景,形成演練任務,以準確模擬故障模式的發生條件。

2)啟動自動化演練,觀察監控系統是否能夠快速檢測到故障和告警、該IT系統的自愈時長、運維人員是否能夠按照應急預案熟練操作,最終記錄下該系統的RTO。

5.演練覆盤和總結

COC平臺對本次演練進行自動打分,本次演練的觀察組在COC中錄入改進事項。該系統在本次演練活動中RTO不達標,除此之外,演練共發現18個問題,典型問題如:監控缺失、告警系統有功能BUG、該IT系統的實際部署情況和設計圖存在一定差異、系統撥測缺失、運維人員對運維工具的使用不熟練等。

6.png

四、業務提升

本次演練採用COC平臺對XX IT系統進行全流程多場景的混沌演練,演練達成的效果如下:

1)全面分析XX IT系統的潛在風險,使用FT-FMEA分析法,在確保全面風險識別的情況下,故障模式由90+個縮減為30+個,縮減了66.66%,達成故障模式收斂提質的目標。

2)對每個故障模式制定應急預案,沉澱在COC平臺上,透過演練驗證和改善了應急預案的可行性,為該IT系統面臨的潛在風險建立了可靠高效的恢復能力。

3)COC混沌演練平臺的自動化演練能力將演練效率提升10+倍,演練發現問題18個,透過改進落實,該系統SLO提升至99.99%,達到門店運營對該系統的可靠性要求。

五 案例總結

本次案例針對零售企業的XX系統對高可用的要求,使用COC平臺進行風險分析、應急預案制定和故障演練。本次演練使用FT-FMEA風險分析法快速高效地識別該系統面臨的風險,透過自動化的故障注入驗證該系統的風險點和應急預案的有效性。對演練發現的問題進行改進落實,將該系統SLO提升至99.99%,達到門店運營對該系統的可靠性要求。

演練是檢驗和提升系統的可用性的最佳方式,結合零售企業的運維情況,總結出以下混沌演練的最佳實踐原則:

1.明確評價標準

• 混沌演練的全流程都能產生價值,要明確混沌工程各環節的輸出件和評價標準,並承載到線上演練平臺中。

• 混沌演練是主動暴露風險的技術,透過及時激勵來鼓勵研發和運維人員主動暴露風險,並對風險制定好應急預案。

2.做好混沌演練,要做到故障模式分析先行

• 故障模式作為演練的起點,決定了演練的質量,應急預案作為恢復手段,是演練安全性和日常故障快速恢復的保障。

• 使用FT-FMEA方法分析的故障模式,在精準識別風險的同時也能夠有效避免故障模式的數量發散。

3.使用自動化演練方式

• 自動化演練工具能夠降低演練的門檻,提升演練效率,確保故障注入的安全性、準確性。

• 自動化演練工具能夠對演練進行線上管理,確保演練的按時執行和演練經驗的傳承和積累。

4.做好演練運營

• 藍軍可以協調組織較大型的演練活動,在檢驗各IT系統韌性的同時,也能做好示範,帶動獨立系統的日常演練,達到演練日常化,演練無死角的效果。

• 對演練活動、演練結果進行運營和宣傳,能夠讓IT開發和運維人員意識到系統可能面臨的風險,將質量文化主動落實在研發和運維流程中。

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章