英偉達贏麻了!馬斯克xAI超級算力工廠曝光,10萬塊H100、數十億美元

机器之心發表於2024-05-27

英偉達:儘管建,用的還是我的晶片,

最近幾年,隨著大語言模型的飛速發展與迭代,科技巨頭們都競相投入鉅額財力打造超級計算機(或大規模 GPU 叢集)。他們認為,更強大的計算能力是實現更強大 AI 的關鍵。

早在 2022 年,Meta 即宣佈與英偉達共同打造大型 AI 研究超級計算機「AI Research SuperCluster」(RSC),它由 760 個英偉達 DGX A100 系統組成,共有 6080 塊 GPU,效能非常強大。

如今,馬斯克旗下人工智慧初創公司 xAI 傳出了打造超級計算機的訊息。

據外媒 The Information 報導,最近馬斯克向投資者透露,xAI 計劃建造超級算力工廠「Gigafactory of Compute」,為 AI 聊天機器人 Grok 的下一個版本提供算力支援。

圖片

據悉,xAI 計劃將 10 萬塊 H100 專用 GPU 串聯一臺超級計算機,其規模至少是當前最大 AI 叢集的四倍。如果 xAI 的計劃能夠順利完成,這臺超級計算機將耗費數十億美元和大量電力。

不過,馬斯克似乎很有信心,他的目標是在 2025 年秋季之前讓這臺超級計算機「跑」起來,並親自負責按時交付。

當然,xAI 不想單打獨鬥, 其有望與甲骨文公司(Oracle)合作建造超級計算機。我們知道,xAI 是 Oracle 最大的 H100 伺服器晶片租賃客戶,已經使用了後者超過 1.5 萬塊 H100 晶片。

屆時,xAI 超級算力工廠建成之後,10 萬塊 GPU 晶片叢集將加速 Grok 聊天機器人的開發,減少語音限制。目前,Grok 的最新版本為 Grok 1.5,該版本實現了長上下文理解和高階推理能力,可以處理 128K token 的長上下文視窗。

而據馬斯克此前透露,xAI 正在訓練的 Grok 2 已經耗費了約 2 萬塊 H100 GPU,未來進階版本 Grok 3 可能需要高達 10 萬塊 H100 GPU。看來,馬斯克已經在為 Grok 3 未雨綢繆了。

圖片

最後,對於超級算力工廠而言,最關鍵的找到一個電力充沛(可能需要 100MW)的位置。因此,AI 資料中心位置的選擇非常重要。

至於建成的意義是什麼?這個規模龐大的超級算力工廠將幫助 xAI 追趕 OpenAI、微軟等資金更為雄厚的競爭對手。

此前同樣據 The Information 報導,微軟和 OpenAI 擬投入超 1000 億美元打造一個資料中心專案,其中包括一臺「星際之門」(Stargate)的 AI 超級計算機,配備了數百萬個專用伺服器晶片,旨在為 OpenAI 實現 AGI 提供動力。

圖片

其實,這也不是馬斯克第一次投入超算專案。此前,特斯拉就被曝出到 2024 年底,投入遠超 10 億美元打造一臺「Dojo 專案」的內部超級計算機,用於處理資料和影片,提高自動駕駛能力並最終實現完全自動駕駛。

此次, 馬斯克又在大語言模型領域斥巨資建造超級計算機。有人表示,如果訊息屬實的話,這將成為遊戲改變者。當然,英偉達是最大的贏家。

參考連結:

https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=ks2jbm

相關文章