AWS副總裁Peter:解密基礎架構底層運維和構建之道

lumin1020發表於2020-12-29

在剛剛結束的AWS re:Invent大會上,AWS全球基礎架構和客戶支援資深副總裁Peter DeSantis在主題演講中分享了AWS過去多年來在基礎設施以及運營方面積累的一些經驗和見解,雖然在他的主題演講裡面沒有像Andy和Swami那樣聚焦於新的服務和功能的釋出,但是Peter圍繞基礎架構底層怎麼運維、怎麼思考、怎麼建構,分享了很多鮮為人知的內幕乾貨。

 

對於AWS,很多人都驚異於他們如此穩定、可靠的運營能力,2018年在AWS re:Invent大會公佈的一組資料也讓大家對於AWS充滿了好奇:與規模最接近的另一家服務商相比,AWS雲服務的當機時間是AWS的7倍多。Amazon CTO Werner曾經在公開場合表示,任何東西都會壞,這是我們每天都會面臨的挑戰。AWS要做的就是從細節入手,如何提前預測什麼時候會壞、怎麼壞,如果壞了如何將影響降到最低。

 

所有資料中心都在談電的故事,那麼電是怎麼回事呢?

 

Peter做了非常清晰的解讀,一般從電網拿到電後,AWS經過Switch Gear配電控制系統供應電力,其中的UPS備用電源系統可以在電網供電出現問題時馬上接管電源,保證服務不中斷,同時啟動發電機組,為電池持續充電,直到電力恢復。

 

簡單來說,要保持電的持續可用性,就是要保證發電機、配電開關控制系統與UPS系統的“不斷電”。

 

保證發電機的運營無疑是最簡單的,AWS的解決策略就是加一組冗餘發電機,可以互做備份。

 

配電開關和UPS比較複雜,以配電開關為例,AWS做了一套配電開關係統,在發生事故時,可以最快的速度和極簡的流程處理故障。

 

我們再看看資料中心本身怎麼去思考。把時間拉回2001年,當時Amazon在西雅圖就已經在運營一個資料中心。在綜合考慮了火災、雷電、龍捲風、海嘯、地震以及延遲帶來的影響等等所有的因素之後,Amazon找到了最合適的資料中心位置,,在這個距離的基礎上保證資料中心的延遲在一毫秒之內,最大程度保證資料中心之間的獨立性。

 

除此之外,AWS還提出了區域(Region)和可用區(Availability Zone,AZ)這兩個概念。目前AMS有遍及24 個地理區域的77個可用區(AZ),並已公佈計劃在澳大利亞、印度、印度尼西亞、日本、西班牙和瑞士新建6個AWS區域、18個可用區。

 

透過AWS的區域,一方面可以使得AWS雲服務在地理位置上更加靠近使用者,另一方面使得使用者可以選擇不同的區域儲存他們的資料以滿足法規遵循方面的要求。

 

AWS的每個區域一般由多個可用區(AZ)組成,而一個可用區一般是由多個資料中心組成。AWS引入可用區設計主要是為了提升使用者應用程式的高可用性。因為可用區與可用區之間在設計上是相互獨立的,也就是說它們會有獨立的供電、獨立的網路等,這樣假如一個可用區出現問題時也不會影響另外的可用區。

 

Peter還特別強調了AWS資料中心的設計邏輯:去除人的干擾。人可以成就一切,也可以破壞一切。因此,要保證每個區域之間的運營完全獨立,互不干擾,當客戶在全球部署跨多個區域,就可以減小破壞帶來的影響。

 

接下來,Peter談到了AWS Nitro架構創新,它為Amazon的雲服務提供了底層的支援。Nitro架構的總體設計思想是:輕量化的hypervisor配合定製化的硬體,讓使用者無法區分出執行在虛擬機器內和執行在裸金屬上作業系統的效能差異。最新版本version 4為新的C6gn 例項提供了動力。

 

而在在機器學習領域,Peter透露今年下半年還會正式推出另一個晶片產品——AWS Trainium。

 

最後,Peter提到了讓整個Amazon所使用的資料中心100%使用再生能源的計劃,AWS把實現這個目標的時間提早了很多5年,爭取在 2025 年100 % 利用可再生能源。

具體來說,2020 年,亞馬遜對可再生能源的總投資專案已達到35 個,裝機容量超過4 GW,這也是目前世界上單一企業在1年內對可再生能源的最大的一筆投資。這些新專案將使亞馬遜所擁有的可再生能源的的總裝機容量在2020 年達到6.5 GW,併成為有史以來最大的企業可再生能源採購商。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965512/viewspace-2746334/,如需轉載,請註明出處,否則將追究法律責任。

相關文章