- 亞馬遜雲科技將提供基於NVIDIA Grace Blackwell GPU的Amazon EC2例項和NVIDIA DGX Cloud,以加速構建及執行數萬億引數的規模大型語言模型的效能
- Amazon Nitro系統、Elastic Fabric Adapter加密,以及與Blackwell加密整合的Amazon KMS金鑰管理服務,為客戶提供從訓練資料到模型權重的端到端控制,為客戶在亞馬遜雲科技上的AI應用提供更強的安全保障
- “Ceiba專案”——一臺完全依託亞馬遜雲科技搭建、採用DGX Cloud的AI超級計算機,搭載了20,736顆GB200 Superchips晶片,能夠提供414 exaflops的處理能力,專為NVIDIA自身的AI研發工作設計
- Amazon SageMaker與NVIDIA NIM推理微服務整合,以幫助客戶進一步最佳化在GPU上執行基礎模型的價效比
- 亞馬遜雲科技與英偉達之間的合作加速了在醫療保健和生命科學領域的AI創新
北京——2024年3月20日,亞馬遜雲科技和英偉達宣佈,英偉達在2024年GTC大會上推出的新一代NVIDIA Blackwell GPU平臺即將登陸亞馬遜雲科技。亞馬遜雲科技將提供NVIDIA GB200 Grace Blackwell Superchip和 B100 Tensor Core GPU,這一舉措延續了雙方長期的戰略合作伙伴關係,旨在為客戶提供安全、先進的基礎設施、軟體及服務,助力客戶開啟新一代生成式AI的能力。
英偉達與亞馬遜雲科技繼續匯聚各自的領先技術,包括具備英偉達最新多節點系統的下一代NVIDIA Blackwell平臺和AI軟體,以及亞馬遜雲科技的Nitro系統、具備領先安全性的Amazon KMS金鑰管理服務、千萬億位元級的Elastic Fabric Adapter(EFA)網路和Amazon EC2 UltraCluster超大規模叢集等技術。基於上述技術打造的基礎設施和工具,使客戶能夠在Amazon EC2上以更快速度、更大規模、更低成本地對其構建和執行數萬億引數的大型語言模型(LLMs)進行實時推理,效能相較於配備前一代英偉達GPU的EC2例項有顯著改進。
亞馬遜雲科技執行長Adam Selipsky表示:“我們雙方的深入合作可以追溯到13年前,當時我們共同推出了世界上第一個亞馬遜雲科技上的GPU雲例項,而今天我們為客戶提供了最廣泛的英偉達GPU解決方案。英偉達的下一代Grace Blackwell處理器是生成式AI和GPU計算領域的標誌性事件。當結合亞馬遜雲科技強大的EFA網路、Amazon EC2 UltraClusters的超大規模叢集功能,以及我們獨有的Amazon Nitro高階虛擬化系統及其安全功能時,我們就能夠使客戶更快、更大規模且更安全地構建和執行具有數萬億引數的大型語言模型。”
英偉達創始人兼執行長黃仁勳表示:“人工智慧正在以前所未有的速度推動新應用、新商業模式和跨行業的創新。我們與亞馬遜雲科技的合作正在加速新的生成式AI能力的發展,併為客戶提供前所未有的計算能力,以開創無限可能。”
亞馬遜雲科技與英偉達的新合作將顯著加快超萬億引數前沿大型語言模型的訓練
亞馬遜雲科技將提供配置GB200 NVL72的英偉達Blackwell平臺,它配備72顆Blackwell GPU和36顆Grace CPU,透過第五代NVIDIA NVLink™互連。當與亞馬遜雲科技強大的EFA網路、Amazon Nitro高階虛擬化系統和Amazon EC2 UltraClusters超大規模叢集等技術結合時,客戶能夠輕鬆擴充套件至數千個GB200 Superchips。英偉達Blackwell在亞馬遜雲科技上的應用,使得該平臺在應對資源密集型和數萬億引數語言模型等推理工作負載加速方面實現了巨大飛躍。
基於此前搭載英偉達H100的Amazon EC2 P5例項的成功(客戶短期使用這些例項可透過Amazon EC2 Capacity Blocks for ML功能),亞馬遜雲科技計劃提供配備B100 GPUs新的Amazon EC2例項,並支援在Amazon EC2 UltraClusters中部署以加速超大規模生成式AI的訓練和推理。GB200也將在NVIDIA DGX™ Cloud上可用,這是一個在亞馬遜雲科技上雙方共同開發的AI平臺,為企業開發者提供了構建和部署先進生成式AI模型所需的專用基礎設施和軟體。在亞馬遜雲科技上推出的基於Blackwell的DGX Cloud例項將加速前沿生成式AI和超過1萬億引數的大語言模型的開發。
提升AI安全性:亞馬遜雲科技Nitro系統、Amazon KMS、EFA加密與Blackwell加密技術緊密整合
隨著AI技術應用越來越廣泛,企業需要確信,在整個訓練流程中,他們的資料都得到了安全的處理。保護模型權重的安全至關重要,模型權重是模型在訓練過程中學習到的引數,對於模型做出預測的能力至關重要。確保模型權重的安全對保護客戶的智慧財產權、防止模型被篡改以及維護模型的完整性都是非常重要的。
亞馬遜雲科技的AI基礎設施和服務已經實現了安全特性,使客戶能夠控制其資料,並確保資料不會與第三方模型提供者共享。Amazon Nitro系統和英偉達GB200的結合將能夠阻止未授權個體訪問模型權重,從而把AI安全性提升到新的高度,。GB200支援對GPU之間NVLink連線進行物理加密,以及對Grace CPU到Blackwell GPU的資料傳輸進行加密,同時EFA也能夠對伺服器之間的分散式訓練和推理過程的資料進行加密。GB200還將受益於Amazon Nitro系統,該系統將主機CPU/GPU的I/O功能解除安裝至專門的硬體上,以提供更加一致的效能,其增強的安全性可以在客戶端和雲端全程保護客戶的程式碼和資料在處理過程中的安全。這一獨有的功能已經獲得了領先的網路安全公司 NCC Group 的獨立驗證。
透過在Amazon EC2上使用GB200,亞馬遜雲科技將使客戶能夠使用Amazon Nitro Enclaves和Amazon KMS,在其EC2例項旁建立一個可信執行環境。Amazon Nitro Enclaves允許客戶使用Amazon KMS控制下的金鑰來加密他們的訓練資料和權重。從GB200例項內部可以載入安全區(enclave),並且可以直接與GB200 Superchip通訊。這使得Amazon KMS能夠以加密安全的方式直接與安全區通訊,並直接傳遞金鑰材料。然後,安全區可以將該材料傳遞給GB200,這樣做能夠保護客戶例項中的資料,防止亞馬遜雲科技操作人員訪問金鑰或解密訓練資料或模型權重,從而賦予客戶對其資料的無與倫比的控制權。
“Ceiba專案”利用Blackwell在亞馬遜雲科技上推動英偉達未來生成式AI創新
在2023年亞馬遜雲科技re:Invent大會上宣佈的“Ceiba專案”,是英偉達與亞馬遜雲科技合作建造的世界上最快的AI超級計算機之一。這臺專為英偉達自身的研究和開發而設的超級計算機,獨家託管在亞馬遜雲科技上。這臺首創的擁有20,736顆GB200 GPU的超級計算機,採用新型NVIDIA GB200 NVL72配置構建,其特有的第五代NVLink將連線10,368顆NVIDIA Grace CPU。系統透過亞馬遜雲科技第四代EFA網路進行擴充套件,為每個Superchip提供高達800 Gbps的低延遲、高頻寬網路吞吐量——能夠處理高達414 exaflops的AI計算量,與之前計劃在Hopper架構上構建Ceiba相比,效能提升了6倍。英偉達的研發團隊將利用Ceiba推進大語言模型、圖形(影像/影片/3D生成)與模擬、數字生物學、機器人技術、自動駕駛汽車、NVIDIA Earth-2氣候預測等領域的AI技術,以幫助英偉達推動未來生成式AI的創新。
亞馬遜雲科技與英偉達的合作推動生成式人工智慧應用開發及醫療健康與生命科學領域的應用進展。
亞馬遜雲科技與英偉達聯手,透過Amazon SageMaker與NVIDIA NIM推理微服務的整合,提供了高效能、低成本的生成式AI推理解決方案,該服務作為NVIDIA AI企業版的一部分提供。客戶可以利用這一組合在Amazon SageMaker中快速部署和執行已預編譯且對NVIDIA GPU進行最佳化的基礎模型,縮短生成式AI應用的推出時間。
亞馬遜雲科技與英偉達還在利用計算機輔助的藥物發現領域進行合作擴充,推出了新的NVIDIA BioNeMo™基礎模型,用於生成化學、蛋白質結構預測,以及理解藥物分子與目標的相互作用。這些新模型將很快在Amazon HealthOmics上提供,這是一個專為幫助醫療保健和生命科學組織儲存、查詢和分析基因組、轉錄組及其他組學資料而設計的專用服務。
Amazon HealthOmics和英偉達醫療保健團隊還合作推出生成式AI微服務,以推進藥物發現、醫療技術和數字健康領域的發展,該服務提供一個新的GPU加速的雲端服務目錄,涵蓋生物學、化學、成像和醫療保健資料,以便醫療企業能夠在亞馬遜雲科技上利用生成式AI的最新成果。