2024 年 10 月 28 日—NVIDIA 宣佈,xAI 位於田納西州孟菲斯市的 Colossus 超級計算機叢集達到了 10 萬顆 NVIDIA® Hopper GPU 的巨大規模。該叢集使用了 NVIDIA Spectrum-X™ 乙太網網路平臺,該平臺是專為多租戶、超大規模的 AI 工廠提供卓越效能而設計的 RDMA(Remote Direct Memory Access)網路。
Colossus 是世界上最大的 AI 超級計算機,目前正被用於訓練 xAI 的 Grok 系列大語言模型,以及作為 X Premium 使用者功能之一的聊天機器人(Chatbot)。xAI 正在將 Colossus 的規模進一步擴大一倍至 20 萬顆 NVIDIA Hopper GPU。
xAI 和 NVIDIA 僅用了 122 天就建成了所有配套設施和這臺最先進的超級計算機,從第一個機架落地到開始訓練任務,只用了 19 天。而建造這種規模的系統通常需要數月乃至數年的時間。
在訓練 Grok 這種超大型模型時,Colossus 實現了空前的網路效能,在三層網路架構下,整個系統未出現任何因流量衝突而造成的應用延遲增加或資料包丟失的情況。憑藉 Spectrum-X 先進的擁塞控制功能,系統資料吞吐量一直保持在 95%。
這一效能水平是傳統乙太網在大規模的情況下根本無法實現的,傳統乙太網在數千條流發生衝突時,只能提供 60% 的資料吞吐量。
NVIDIA 網路高階副總裁 Gilad Shainer 表示:“AI 正變得至關重要,對效能、安全性、可擴充套件性和成本效益提出了更高的要求。NVIDIA Spectrum-X 乙太網網路平臺專為那些如 xAI 一樣的創新企業提供更快的處理、分析和執行 AI 工作負載的速度,進而加速 AI 解決方案的開發、部署和上市。”
埃隆·馬斯克在 X 上表示:“Colossus 是世界上最強大的訓練系統。xAI 團隊、NVIDIA 和我們的眾多合作伙伴及供應商幹得漂亮。”
xAI 發言人表示:“xAI 構建了全球規模最大、效能最強的超級計算機。藉助 NVIDIA Hopper GPU 和 Spectrum-X,我們得以突破大規模 AI 模型訓練的邊界,打造基於乙太網標準並經過超級加速和最佳化的 AI 工廠。”
Spectrum-X 平臺的核心是 Spectrum SN5600 乙太網交換機,它支援高達 800Gb/s 的埠速度,採用了 Spectrum-4 交換機 ASIC。xAI 採用了 Spectrum-X SN5600 交換機與 NVIDIA BlueField-3® SuperNIC 的端到端解決方案,實現了前所未有的效能。
專門面向 AI 的 Spectrum-X 乙太網網路具有先進的功能,可在提供高效、可擴充套件的頻寬的同時,實現低延遲和短尾延遲,而這些功能之前是 InfiniBand 網路所獨有的。Spectrum-X 的功能包括基於 NVIDIA DDP(Direct Data Placement)技術的動態路由、擁塞控制計算,以及增強了 AI 網路的可視性和效能隔離,所有這些功能都是多租戶生成式 AI 雲和大型企業應用環境的關鍵要求。
媒體諮詢:
何祝君
NVIDIA 高階公關經理
郵箱:adah@nvidia.com
吳冰柔
北京科聞領睿諮詢服務有限公司
郵箱:Sharon.wu@archetype.cn
該新聞稿所含若干陳述包括(但不限於)有關以下各項的陳述:NVIDIA 產品和技術的優勢、影響和效能,包括 NVIDIA Hopper GPU、NVIDIA Spectrum-X 乙太網網路平臺、NVIDIA Spectrum SN5600 乙太網交換機、Spectrum-4 交換機 ASIC 和 NVIDIA BlueField-3 SuperNIC;xAI 的 Colossus 超級計算機叢集的功能;xAI 正在將 Colossus 的規模進一步擴大一倍至 20 萬顆 NVIDIA Hopper GPU;NVIDIA Spectrum-X 乙太網網路平臺加快了 xAI 等創新企業處理、分析和執行 AI 工作負載的速度,進而加速了 AI 解決方案的開發、部署和上市;藉助 NVIDIA 的 Hopper GPU 和 Spectrum-X, xAI 得以推動大規模 AI 模型訓練的邊界,建立出一個基於乙太網標準且經過超級加速和最佳化的 AI 工廠等均屬前瞻性陳述,受制於可能導致結果與預期有重大差異的風險和不確定因素。可能導致實際結果產生重大差異的重要因素包括:全球經濟狀況;我們依靠第三方來製造、組裝、包裝和測試我們的產品;技術發展和競爭的影響;新產品和技術的開發或者現有產品升級;我們產品或合作伙伴產品的市場認可度;設計、製造或軟體缺陷;消費者偏好或需求的變化;行業標準和介面變化;我們產品或技術在整合到系統中時發生的意外效能損失;NVIDIA 向美國證券交易委員會(SEC)提交最新報告中不時詳述的其他因素,這些報告包括(但不限於)採用 10-K 表的年度報告和採用 10-Q 表的季度報告。向 SEC 提交的報告的副本均在 NVIDIA 的官方網站上釋出,並可免費下載。以上前瞻性陳述並非未來表現的保證,僅以本協議日期為準;除法律要求外,NVIDIA 不承擔更新以上前瞻性陳述以反映未來事件或情況的任何義務。
© 2024 NVIDIA Corporation保留一切權利。NVIDIA、NVIDIA 商標、NVIDIA Spectrum-X 和 BlueField
均為 NVIDIA Corporation 在美國和/或其他國家的商標和/或註冊商標。其他公司和產品名稱可能是與其相關的各家公司的商標。功能、價格、可用性和規格如有更改,恕不另行通知。