阿里雲數字化安全生產平臺 DPS V1.0 正式釋出!

阿里巴巴雲原生發表於2022-04-24

*作者:銀桑、比揚*


阿里雲創立於 2009 年,是全球領先的雲端計算及人工智慧科技公司。阿里云為 200 多個國家和地區的企業、公共機構和開發者,提供安全、可靠的雲端計算、大資料、人工智慧等產品和服務。阿里雲作為全國首家雲等保試點示範平臺和首家透過國家等保四級備案測評的雲服務商,為中國超過一半的上市公司,為 80%中國科技創新企業提供雲端計算服務。


眾所周知,阿里巴巴雙 11 是對業務來說是一個獨一無二的挑戰。在大促期間,叢集規模超過百萬,單叢集規模達到 10000 以上。2019 年雙 11 的資料庫峰值能力達到 54.5 萬筆訂單每秒,資料庫 TPS 達到 8700 萬,實時計算 Blink 處理峰值達到 25 億訊息每秒,訊息系統峰值達到 1.5 億訊息每秒。這些數值是對業務的極致效能和極致穩定性的要求,其中的業務穩定性離不開全面的高可用架構和手段來保障。阿里雲在海量網際網路服務以及歷年雙 11 場景的實踐過程中,沉澱出了包括全鏈路壓測、線上流量管控、故障演練、多活容災和安全生產等高可用核心技術,並透過開源和雲上雲下服務的形式對外輸出,以幫助企業使用者和開發者享受技術紅利,提升系統穩定性和業務連續性。 


![11111111111.png](~tplv-k3u1fbpfcp-zoom-1.image "11111111111.png")![image.gif](~tplv-k3u1fbpfcp-zoom-1.image "image.gif")


圖 1:企業數字化安全生產解決方案:阿里巴巴業務連續性實踐


數字化安全生產平臺(Digital Production Stability,簡稱 DPS)核心面向 1-5-10 應急響應場景,提供應急事件和故障的發現、響應和處理,提供應急場景的定義與管理、故障監控佈防、故障上報、故障應急協同、故障過程跟蹤、故障恢復、改進措施的全生命週期管理能力。幫助客戶提升業務穩定性,為客戶提供故障應急場景下的一站式服務。


如今,雲原生已經成為企業數字化轉型的關鍵策略,由於應用需要快速開發和交付,這就促使企業採用雲原生的方法來開發應用,以提高效率,並增加靈活性。對於身處雲原生時代的企業和開發者而言,不僅需要採用雲原生的手段來應對業務的高速迭代,更要關注業可用及連續性管理建設。數字化安全生產平臺則幫助客戶促進業務與 IT 的全面協同,從業務集中監控、業務流程管理、應急指揮響應等多維度來幫助客戶建立完善專業的業務連續性保障體系。


數字化安全生產平臺核心面向業務連續性管理,圍繞業務提供風險預警、決策支撐、指揮排程和組織運營四大板塊能力,同時每個板塊由多個能力域共同組成,透過具體的業務場景(如 1-5-10 應急響應)串聯整個業務流程。


-   **風險預警。** 透過監控中心、事件中心兩大核心能力,提供基礎設施、業務應用的實時監控資訊,配合應急場景定義、監控項關聯、事件響應與處理、ChatOps 協同等能力,為客戶業務提供實時監控告警和風險通告,實時瞭解業務的執行情況。


-   **決策支撐。** 透過根因定位、智慧分析和日誌中心三大核心能力,在業務出現告警事件甚至故障的情況下,提供豐富的定位手段和資料來支撐業務變更決策。支援業務的智慧巡檢,指標關聯類、呼叫異常類的根因定位;支援資料庫呼叫、介面呼叫、應用效能和呼叫鏈的分析與查詢。同時也支援多種日誌型別採集與分析,從日誌中查詢業務執行情況。


-   **指揮排程。** 當業務告警事件或者故障需要面臨變更時,透過與高可用產品的深度整合,提供豐富的變更處理手段來應對業務變更。流量防護提供應用防護和閘道器防護能力,可以配置多種流控規則來應對大流量或者服務不穩定呼叫的場景;開關預案提供快速的、有計劃的變更處理。


-   **組織運營。** 業務的連續性管理不僅僅是保障應用的高可用,更多是業務人員的應急協同,從而為客戶打造 SRE 型組織。平臺提供組織協同管理、工單、知識庫等能力,幫助客戶將運維人員和業務應用透過流程化的方式進行協同管理,應急響應責任到人,透過工單、事件單和演練評測的方式等方式實現組織協同。


![22222222.jpg](~tplv-k3u1fbpfcp-zoom-1.image "22222222.jpg")


點選[**此處**](),瞭解阿里云云原生更多相關資訊~


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69953029/viewspace-2888487/,如需轉載,請註明出處,否則將追究法律責任。

相關文章