越來越多的企業將關鍵性的工作負載放到雲上,如何確保雲上業務的連續性即雲的韌性對企業來說就越來越重要。在亞馬遜雲科技,我們從一開始就在基礎設施、服務設計與部署、運營模式和機制中將韌性考慮其中。例如,亞馬遜雲科技在一個區域內三個或更多可用區的設計,可透過更多冗餘和更好的隔離來控制故障的影響面。亞馬遜雲科技將韌性根植於服務的設計之中,不同級別的服務有對應的、隔離的控制面和資料面,並逐層實施隔離。

如今,全球數百萬使用者選擇亞馬遜雲科技,包括對資料高度敏感的組織如納斯達克、道瓊斯、美國金融監管局(FINRA)、默沙東等,他們信賴亞馬遜雲科技提供的安全、穩定、可信賴的雲服務,滿足其業務需求。

將韌性構建到亞馬遜雲科技的方方面面

為構建和執行世界上最可靠的雲,亞馬遜雲科技持續投入,在服務設計和部署機制中構建保障措施,並將韌性植根於運營文化之中。亞馬遜雲科技服務的設計中就考慮瞭如何防止中斷和事故的發生,因此當中斷確實發生時,對客戶和服務的連續性的影響將是最小的。為了避免單點故障,我們最小化全球基礎設施之間的互聯性。亞馬遜雲科技全球基礎設施地理位置分散,遍及33個地理區域的105個可用區。亞馬遜雲科技的區域由一個地理區域內的多個相互獨立,且在物理上分隔的可用區組成。每個可用區都有獨立的電力、製冷和物理安全設施,可用區之間透過冗餘的超低延遲網路連線。同一區域內的可用區之間具有足夠的距離,最遠可達約100公里,既能防止相關故障,但又能實現單位毫秒級延遲的同步複製。亞馬遜雲科技是唯一在每個區域內提供三個或更多可用區的雲提供商,透過更多冗餘和更好的隔離來控制故障的影響面。常見故障點,如發電機和冷卻裝置等,不會在可用區之間共享,並且設計為由獨立的電力變電站供電。為了獲得高可用性的同時可以實現更大的容錯能力,客戶可以將他們的應用程式設計為在多個可用區中執行。

韌性根植於亞馬遜雲科技服務設計之中。在亞馬遜雲科技構建的服務必須滿足極高的可用性目標。我們會仔細考慮我們系統所依賴的因素。即使這些依賴項受到影響,我們的設計也使我們的系統保持韌性;我們使用被稱為靜態穩定性來實現這種程度的韌性。這意味著系統以靜態狀態執行,並在發生故障或依賴項不可用時繼續正常執行,無需進行任何更改。例如,在Amazon Elastic Compute Cloud (Amazon EC2)中,例項啟動後就和資料中心中的物理伺服器一樣可用。其他亞馬遜雲科技資源如虛擬私有云(VPC)、Amazon Simple Storage Service (Amazon S3)儲存桶以及Amazon Elastic Block Store (Amazon EBS)卷也具有相同的特性。

賦能客戶所有工作中構建韌性

數百萬客戶信賴亞馬遜雲科技是構建和執行關鍵業務和關鍵任務應用程式的最佳場所。我們提供了一套全面的專門構建的服務、策略和架構最佳實踐,客戶可以使用這些服務、策略和最佳實踐來提升企業自身的韌性。這些服務、策略和最佳實踐在亞馬遜雲科技韌性生命週期框架中被概述成了五個階段:設定目標、設計和實施、評估和測試、運營以及響應和學習。彈性生命週期框架模仿標準軟體開發生命週期,因此客戶可以輕鬆地將韌性納入現有流程。

例如,客戶可以使用Amazon Resilience Hub來設定目標,根據這些目標評估韌性狀況,並根據Amazon Well-Architected Framework和Amazon Trusted Advisor的建議實施改進措施。在Resilience Hub中,客戶可以建立和執行Amazon Fault Injection Service實驗,這些實驗允許客戶測試其應用程式將如何響應某些型別的中斷。

其他服務,如Amazon BackupAmazon Elastic Disaster Recovery (Amazon DRS)Amazon Route53 Application Recovery Controller (Route 53 ARC),可以幫助客戶快速響應和從中斷中恢復。當湯森路透(一家為超過100個國家的客戶提供稅務、法律、媒體和政府解決方案的國際媒體公司)希望改善其業務部門之一的資料保護和應用程式恢復時,他們採用了Amazon DRS。Amazon DRS為湯森路透提供了持續複製,因此他們在源環境中所做的更改會在幾秒鐘內更新到災難恢復站點。

 

行而不輟,未來可期

新技術、新威脅和新的處事之道層出不窮。這就是亞馬遜雲科技不懈努力改進基礎設施、服務設計、運營模式和機制,持續加強與發展雲設施韌性的原因。亞馬遜雲科技將持續為客戶提供廣泛、深入的架構及運營最佳實踐服務、工具和指導,幫助客戶在雲中構建和執行彈性應用程式。