只要計算機依然遵循馮·諾依曼體系結構所定義的形態,那麼關於計算的發展創新,大多都將圍繞著“存”與“算”的協作。不過有趣的是,從古文明到計算機時代,千年以來人類對“存”的需求似乎總是優先於“算”——只要條件允許,人們就傾向於災備性地保留儘可能多的資料,即便它們可能再也不會被用於計算;現在的電子產品也喜歡讓使用者在計算硬體相同但儲存空間不同的產品中進行選擇。

當然,在計算的世界中“存”和“算”只是在不同場景中有所側重,缺一不可。只不過由於技術、成本等限制,人們在購買算力時往往精心算計,但對儲存則傾向預留充足冗餘。這也解釋了為何在計算機領域的一些重大發展中,儲存或是發揮重要作用,或是在第一時間享受到創新的增益。

如果將2006年亞馬遜雲科技成立,看作是拉開了雲端計算時代的帷幕,那麼Amazon Simple Storage Service(Amazon S3)物件儲存服務就是拉開帷幕的那隻無形的手。作為亞馬遜雲科技的推出的第一個雲服務,Amazon S3的到來,與那些隱約感受到資料膨脹壓力的使用者形成了一場雙向奔赴。

現在,誕生已18年的Amazon S3已是最受歡迎的亞馬遜雲科技服務之一。隨著雲端計算生態日益繁榮,計算場景來到機器推理、生成式人工智慧等高階應用,Amazon S3也在一路發展成長,成為雲端計算中基礎但又從不缺席的環節。

首個雲物件儲存,Amazon S3揭開雲端計算時代的大幕

作為亞馬遜雲科技的“元老”級服務,Amazon S3目前為全球數百萬各行各業的客戶提供可靠、便捷的雲端儲存。現在,Amazon S3 儲存了超過 350 萬億個物件,平均每秒處理超過1億次請求,能夠勝任幾乎所有工作負載。

Amazon S3能擁有持續18年的旺盛生命力,來自雲端計算所開創的顛覆性儲存正規化。雲端計算透過功能和服務取代了本地儲存,上至無限的彈性容量、按用量付費……雲端計算使儲存擁有了與業務同步成長的可能。

而且Amazon S3還提供了遠超本地儲存的可靠性,具有的11個9(99.999999999%)的永續性,意味著一萬年時間跨度中1000萬個物件才可能會丟一個,使用者使用Amazon S3不需要在本地構建資料中心,無需操心資料存放位置,不用擔心擴容問題,也幾乎不用擔心資料丟失的風險。

豐富的儲存級別,Amazon S3以更經濟的方式承載更多資料與應用

隨著企業數字化轉型的逐步推進,以及雲端計算技術對企業IT技術的重塑,企業在雲上存放了數量眾多、型別多樣的資料,並在雲上構建了越來越多的應用。企業一方面要解決儲存成本持續增加的挑戰;另一方面還需要滿足不同應用的資料不同訪問模式,比如,有的資料訪問頻次不同,需要的檢索時效不同,有的需要即時檢索,有的在幾十個小時檢索。

針對客戶的這些需求,亞馬遜雲科技持續針對Amazon S3持續開展創新,如今Amazon S3提供了9個儲存層級,不同層級有不同的訪問特性和成本水平。2012年是雲端計算方興未艾的年代,亞馬遜雲科技在標準Amazon S3的基礎上又釋出了Amazon S3 Glacier(現已更名為Amazon S3 Glacier Flexible Retrieval ),它為需要長期儲存,且低訪問頻次的資料提供了低成本的資料儲存方案,也成了雲上儲存多樣化的一個重要開端。

此後,為了提供更加靈活的資料存取速度和成本效率,滿足更多應用需求。亞馬遜雲科技先後推出了成本最低的深度歸檔儲存Amazon S3 Glacier Deep Archive,支援快速檢索的歸檔儲存Amazon S3 Glacier Instant Retrieval,以及不常訪問、但在需要時要能快速訪問的Amazon S3 Standard-IA和Amazon  S3 One Zone-IA等。

金山辦公是國內領先的辦公軟體和服務提供商,其旗艦產品 WPS Office是全球主流辦公軟體產品之一。WPS Office 對資料的儲存和管理有極為嚴苛的要求:WPS Office 儲存了 PB 級海量資料,帶來了巨大的儲存成本壓力;同時,由於 WPS Office 為使用者提供對 “冷” 文件的及時訪問,因此對歸檔儲存(Archive Storage)的資料提取時間也有更高的標準。為了降低終端使用者的延遲和儲存成本,WPS Office 在亞馬遜雲科技的協助下,最終透過 Amazon S3 完成了自動化生命週期管理流程的建立。其中,針對很少訪問且需要毫秒級檢索的長期資料,將其歸檔在更具有成本效益的 Amazon S3 Glacier Instant Retrieval 中。最終,WPS Office 有近一半的儲存進入到了 Amazon S3 Glacier Instant Retrieval 中,達成了資料訪問速度提升和儲存成本大幅最佳化的雙重效果。

此外,針對使用者訪問模式不明確以及資料訪問模式不斷改變的情況,亞馬遜雲科技還推出了Amazon S3新的儲存層級——Amazon S3 Intelligent-Tiering。該服務可以根據訪問頻率自動將資料移至成本最低的儲存層,在物件級別降低儲存成本,並且不會影響效能表現。自 2018 年Amazon S3 Intelligent-Tiering 推出以來,與 Amazon S3 Standard 相比,客戶透過採用 S3 Intelligent-Tiering 節省了 20 億美元。

迎接人工智慧技術發展,Amazon S3效能實現突破性提升

隨著新的使用場景的出現,如機器學習訓練和推理、互動式分析、金融模型模擬、實時廣告和媒體內容建立,這類工作負載可能每分鐘寫入和訪問資料達百萬次,並需要一致的、毫秒級的響應時間以滿足效能需求。例如,人工智慧(AI)和機器學習模型訓練通常需要在幾分鐘內處理數百萬張圖片和文字行,因此資料訪問速度對於實現最高的計算效率至關重要。

Amazon S3上儲存著各種不同型別的大量非結構化資料,這些非結構化資料通常是直接從真實世界中獲取的,因此它能更真實地反映現實世界的複雜性和多維度資訊,利用這些資料做訓練能提高模型的實用價值,更好地滿足企業使用者需求。去年底,亞馬遜雲科技在2023年re:Invent全球大會上,釋出Amazon S3 Express One Zone,這是Amazon S3在效能方面的一次突破性提升。它採用了單可用區的架構設計,擁有個位數毫秒級響應時間,效能比標準版Amazon S3快了10倍,每分鐘可處理數百萬次請求。

對於計算密集型負載,Amazon S3 Express One Zone延遲的降低對使用者有顯而易見的價值。用ImageNet資料集進行為期15天訓練時,GPU經常需要等候標準版Amazon S3載入資料,而在換成S3 Express One Zone之後,GPU利用率持續穩定在高水平,最終提早完成任務,釋放了GPU資源並節省成本。

Colorfront 致力於為電影行業開發高效能數字處理技術。“Colorfront 將高效能 GPU 架構與 Amazon S3 Express One Zone 整合,實現對檔案進行轉碼、解碼、轉換和封裝到各種格式的加速處理。” Colorfront 解決方案工程總監 Brandon Heaslip 表示,“藉助  Amazon S3 Express One Zone 個位數毫秒級的資料訪問速度,Colorfront的客戶可以將數字影片處理速度提高70%,滿足了流媒體傳輸中多樣化的媒體和娛樂需求,並保持數字影片的標準。”

除了Amazon S3 Express One Zone以外,亞馬遜雲科技還發布了多個新特性,讓Amazon S3更好地支撐人工智慧/機器學習工作負載。亞馬遜雲科技在Amazon Common Runtime (CRT)中封裝訪問Amazon S3的效能最佳實踐,從而提高S3的傳輸效能和傳輸穩定性。而且,CRT已經整合到包括AWS Python SDK、AWS CLI、Mountpoint以及PyTorch中,在CRT的幫助下,Mountpoint for Amazon S3和Amazon S3 Connector for PyTorch都可以提高儲存的效能表現,為機器學習負載中的資料儲存提供加速,使其更快完成訓練任務,進而幫助企業節省成本。

結束語

在過去的18年裡,Amazon S3成為眾多使用者上雲的第一步,從儲存開始步入雲端計算驅動的數字化轉型。如今,Amazon S3還在持續創新,全球數百萬客戶正使用Amazon S3儲存各種型別的資料,並將Amazon S3的資料對接到亞馬遜雲科技各種計算引擎、資料庫引擎,與人工智慧/機器學習和大資料分析等服務高度整合,為其業務創新帶來了更廣泛的可能性。