近日,中國資訊通訊研究院分散式系統穩定性實驗室正式釋出了《資訊系統穩定性保障能力建設指南》(以下簡稱《指南》)。螞蟻集團應邀深度參與了《指南》的研討編制,該指南收錄了包括螞蟻集團在內的多家知名機構在系統穩定性保障服務方面的優秀案例,旨在為各行業提升系統穩定效能力提供參考。
隨著各領域數字化轉型的推進,資訊系統的應用範圍不斷擴大、承載業務愈發關鍵,使用者的高頻訪問成為常態。面對使用需求的不斷增長,大多數資訊系統通過分散式架構改造、DevOps體系建設、大量引入開源技術來不斷突破自身處理能力上限,這些措施引入導致了資訊系統架構複雜性呈指數上升,顯著增加了穩定性風險。與此同時,資訊系統的穩定性也受到國家高度重視,2021年出臺的《關鍵資訊基礎設施安全保護條例》,就對我國關鍵資訊基礎設施的穩定性保障工作提出了明確要求。
在此背景下,《資訊系統穩定性保障能力建設指南》應運而生。作為國內首個全方位梳理總結穩定性保障相關實踐經驗、方法論的研究成果,指南梳理了新階段下資訊系統穩定性保障能力建設工作的相關背景、基本原則、關鍵要素、核心能力以及評價體系,探討了穩定性保障工作的未來發展趨勢。
《指南》認為,資訊系統是各行業的基礎設施,而網際網路技術的高速發展為系統穩定性帶來了諸多新挑戰,其中分散式系統面臨著更高的穩定性風險。為此,指南開創性地提出了數字化時代下的資訊系統穩定性保障體系,共包含“兩個總體原則、三個關鍵要素、四類核心能力、五項重要工作”。
不僅如此,為幫助各行業完善系統穩定性保障體系,《指南》徵集收錄了多個資訊系統穩定性最佳實踐案例,其中螞蟻集團穩定性保障體系被收錄在網際網路行業案例。
螞蟻集團主要以支付寶客戶端提供支付、理財、保險等業務,服務十億級使用者,業務場景複雜度高,同時涉及金融相關業務,因此對穩定性要求極高。伴隨著業務的多年發展,螞蟻集團逐漸建立穩定性保障方面的問題解決方案和風險防控體系TRaaS(Technological Risk-defense as a Service)。TRaaS關注整個研發運維過程可能產生的穩定性風險,從流程制度、文化宣導、技術方案、平臺體系多個方面提供穩定性風險防控方案,實現風險的主動發現和自我恢復能力,助力業務高質量增長。
簡單來說,TRaaS 是把支付寶整個分散式架構和技術風險能力組合在一起的免疫系統,將高可用和資金安全能力結合AIOps,使系統實現故障自愈。此外,TRaaS還具備以下六大特性:
- 統一變更管控,智慧變更風險防禦;
- 基於chatops的標準SOP故障管理,精細化應急定位輔助;
- 智慧資源容量排程,實現穩定性和成本最優平衡;
- 萬億級資金證賬實智慧實時核對;
- 大規模混沌工程驅動穩定性技術演進,技術風險文化宣導;
- AIOps在可控風險下提升運維效率;
事實上,TRaaS 誕生於螞蟻集團超大規模系統的實戰經驗之中,是在經歷了嚴酷的“雙十一”等千錘百煉的考驗下一步一步逐漸成長起來的技術風險防控平臺,保障了內部超大規模系統的穩定性。
螞蟻技術風險總架構李錚表示,過去十幾年,因為對系統穩定和安全的重視,螞蟻集團已經累計了無數的經驗和技術。TRaaS是螞蟻在內部大規模複雜業務中多年積累和打磨的技術風險平臺能力。未來,我們將逐步開放更多技術和產品,幫助各方構建穩定的數字化系統。
目前,螞蟻集團TRaaS技術風險防控平臺正通過商業化及開源專案等形式對外輸出,螞蟻希望將自身在技術風險防控中的平臺積累及實踐經驗分享給各行業的合作伙伴,讓夥伴們能通力合作、共享風險保障技術,一起為企業系統穩定性保駕護航。