Token is the new frontier.
「因為 AI 技術爆發,GTC 大會的規模每年都在擴大,以前人們說 GTC 是 AI 的伍德斯托克音樂節,今年我們搬進了體育場,我覺得 GTC 已經成了 AI 的超級碗,」英偉達 CEO 黃仁勳說道。「唯一的不同在於每個人都是『超級碗』的贏家。」
北京時間 3 月 19 日凌晨,全世界的目光都匯聚在加州聖荷西 SAP 中心,期待英偉達給出的下一個 AI 大方向。
老黃的 Keynote 演講行雲流水,沒有提詞器。在詳細介紹 Keynote 內容之前,我們劃下重點:- Blackwell 已經全面投產。「產量驚人,客戶需求驚人,因為人工智慧出現了一個拐點,由於推理人工智慧以及推理人工智慧系統和智慧體系統的訓練,我們在人工智慧領域必須完成的計算量大大增加。」
- Blackwell Ultra 將於 2025 年下半年上市,下一代 AI 加速器架構 Vera Rubin 則會在 2026 年推出。
- 搭載分散式推理系統 Dynamo 的 Blackwell NVLink 72 的「AI 工廠」效能是英偉達 Hopper 的 40 倍。「隨著人工智慧規模的擴大,推理將成為未來十年最重要的工作負載之一」。
- 按照最新路線圖,英偉達正在構建三種 AI 基礎設施:一種用於雲,第二種用於企業,第三種用於機器人。
釋出會上,老黃再次拿出 CES 上展示的 AI 發展曲線:從 2012 年的 AlexNet 開始,現在我們處於生成式人工智慧的階段,即將進入智慧體時代,隨後是物理人工智慧。物理 AI 也就是進入物理世界的人工智慧,包括自動駕駛汽車與機器人。「每一次浪潮都為我們開啟了新的市場機遇。」再增加一個維度,不容忽視的是 DeepSeek R1 推動測試時擴充套件(Test-Time Scaling)給機器智慧帶來的全新發展曲線:智慧背後是計算的力量。預訓練時代解決資料問題,後訓練解決的是 human-in-the-loop 問題,而測試時間擴充套件則是為了增強 AI 的推理能力。每一階段都有自己的 Scaling Law,算力都是強需求。所以,雖然 DeepSeek R1 的高效率給全世界以震撼,讓人們正在重估大模型的算力需求,但英偉達對於未來的 AI 算力需求仍然非常樂觀。英偉達給出了一組資料:僅在 2024 年,全球前四的雲服務運營商共採購了 130 萬片 Hopper 架構晶片。預計資料中心的建設投資將很快達到 1 萬億美元。不知道其中有多少是 OpenAI 星際之門專案的貢獻。AI 計算不是在萎縮,而是在通貨膨脹,老黃進一步給出了兩個增長曲線:- 第一個曲線,軟體都會因為 AI 而加速,在常規雲服務上執行的人類編寫軟體,會轉變為 AI 編寫的軟體執行在加速 AI 基礎設施上;
- 第二個曲線,人們編寫的文字提示獲得 AI 生成的 token,轉變成為 AI 生成的 Token 引匯出 AI 生成的結果(即強推理)。
每個企業未來都會有兩個工廠,一個是物理的工廠,一個是 AI 的虛擬工廠。英偉達為所有行業的變革準備了新的工具,包括 CUDA X 軟體庫,其中包括用於 NumPy 的 cuPYNUMERIC、用於量子計算的 cuQUANTUM 和 CUDA-Q、用於深度學習的 NCCL 和 cuBLAS 等等。所有這些庫都依賴 CUDA 核心來完成工作,為此英偉達也準備好了更先進的 AI 算力。Blackwell 架構的 AI 加速卡現在已經全面進入量產階段,正在推動下一波 AI 基礎設施浪潮。「這是我們改變計算架構基礎的重要一步,」黃仁勳說道。在晶片架構進步的同時,英偉達正在研究讓使用者同時訪問多個 GPU 的 NVLINK 交換機。大規模的推理可能是英偉達迄今為止面臨的最複雜的計算問題,但又是 AI 未來的方向。過去幾個月裡,很多人都在嘗試使用 DeepSeek,肯定已經有了親身體驗:黃仁勳展示了新舊兩代大模型是如何解決「為七位客人最佳化婚宴餐桌位次」的問題。上代大語言模型 Llama 輸出了 439 個 token,結果不盡如人意。強推理模型 DeepSeek R1 輸出了 8559 個 token 進行了一番推理,花費的時間更長,計算量也更大,但結果真正能被人用得上。老黃表示:「這是個只有丈母孃或者 AI 才能解決的問題。」但是上面這個問題需要消耗 150 倍的算力。AI 服務商希望儘可能地向每位使用者提供更高的速度,同時也希望儘可能地向更多使用者提供服務。這就產生了對記憶體、頻寬、計算速度等各個方面的巨大需求。Grace Blackwell NVLink72 正是為滿足這樣的需求誕生的。為了提升效率,英偉達在軟體上也有創新,提出了「AI 工廠的作業系統」——NVIDIA Dynamo。它是一個「分散式推理服務庫」,而且是一個開源解決方案,解決的是使用者需要 token 但無法提供足夠 token 的問題。據介紹,Dynamo 會被用於在大量 GPU 之間高效編排和協調 AI 推理請求。目前,微軟、Perplexity 等公司已宣佈開始接入這一系統。接下來,讓我們看看軟體 + 硬體能夠帶來的算力效率提升。如果強推理模型落地成產品,我們就需要 AI 能以極快的速度跑完思維鏈。「只有在英偉達,你才會這樣被數學折磨,」老黃說道。在推理模型中,最新版 Blackwell 的效能是 Hopper 的 40 倍:黃仁勳展示了一個非常直觀的對比。同樣是 100 MW 功率的 AI 工廠,使用 GB200 搭建的資料中心的生產力是使用 H100 的資料中心的 40 倍,同時機架數量還能從 1400 大幅減少到 600。現在不是「the more you buy the more you save」了,而是「the more you buy the more you generate」。「全球 TOPS 的雲服務提供商(CSP)訂購的 Blackwell 晶片數量是 Hopper 的三倍,AI 算力的需求正在迅猛增長。」黃仁勳表示。不得不說,他表示自己確實想提高 Blackwell 的銷量,但這同時在一定程度上降低了 Hopper 的銷量。他甚至打趣說自己是 chief revenue destroyer(首席收入破壞官)。黃仁勳表示,人們的 AI 任務需求正在大幅提升,因為大模型推理任務、AI Agent 等任務,AI 推理的算力需求已經增長了 10-100 倍。這也就產生了對更強大效能的需求。似乎是在順應手機和新能源車出「超大杯」Ultra 版的風潮,英偉達在旗艦 AI 計算卡上也搞了個 Ultra 版:Blackwell Ultra NVL72。這是迄今為止 AI 算力最強大的硬體,配備了 1.1 EF 的密集 FP4 推理能力和 0.36 EF 的 FP8 訓練能力,達到了 GB200 NVL72 的 1.5 倍。此外,它的互聯頻寬是 GB200 NVL72 的 2 倍,記憶體速度也提升了 1.5 倍。至於 Blackwell Ultra NVL72 的上市時間,預計會是今年下半年。將八個 NVL72 機架放在一起,就可以獲得完整的 Blackwell Ultra DGX SuperPOD:288 個 Grace CPU、576 個 Blackwell Utlra GPU、300TB HBM3e 記憶體和 11.5 ExaFLOPS FP4 算力。這就形成了英偉達定義中「AI 工廠」的超級計算機解決方案。需要注意的是,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的晶片。既然算力在通貨膨脹,那這還遠遠不夠。在今天的 Keynote 中,英偉達很快就介紹完了 Blackwell Ultra,轉而展示了其下一代架構 Vera Rubin—— 其全機架效能應是同類 Blackwell Ultra 的 3.3 倍。Vera Rubin 將是英偉達的下一個平臺,將於 2026 年下半年推出。Vera Rubin 具有 NVLink144,更強大的 Rubin Ultra 則具有 NVLink576,將於 2027 年下半年推出。在具體效能上,其將具有 3.6 EF 的 FP4 推理效能和 1.2 EF 的 FP8 訓練效能,整體可達到 GB300 NVL72 的 3.3 倍,同時在其它指標上也有 2 倍左右的提升。其 Ultra 版則計劃在 2027 年下半年推出,其效能更是有望達到 GB300 NVL72 的 14 倍!除了 GPU 晶片的迭代,Rubin 還將標誌著從 HBM3/HBM3e 向 HBM4 的轉變。每 GPU 的記憶體容量仍為 288GB,與 B300 相同,但頻寬將從 8 TB/s 提高到 13 TB/s。下代產品還將擁有更快的 NVLink,吞吐量翻倍至 260 TB/s,機架之間的新 CX9 鏈路速度為 28.8 TB/s(是 B300 和 CX8 的兩倍)。如果將 4 組 Vera Rubin NVLink144 組成的 Vera Rubin NVLink576 來構建 NVIDIA Rubin System,則這將是配備 576 個 Rubin GPU 的效能怪獸,能實現 15 EF 的 FP4 效能,同時記憶體也將達到驚人的 150 TB。對比前代 Blackwell System 的效能,可以看到優勢非常明顯。黃仁勳特別強調:「你可以看到,Rubin 將大大降低成本。」據瞭解,這一代 GPU 得名於科學家 Vera Rubin,她是一位美國天文學家,1928 年出生於費城。她的知名成就是發現了暗物質存在的證據。值得一提的是,自去年的 Blackwell 開始,命名就不再單指晶片架構。黃仁勳就曾強調,Blackwell 並不是某塊晶片,而是一個技術平臺,英偉達也越來越多地開始使用「Blackwell」一詞來指代該公司所有最新一代 AI 產品,例如 GB200 晶片和 DGX 伺服器機架。黃仁勳還在演講中簡單提到了再後一代的 Feynman 架構 —— 很顯然這得名於著名物理學家理查德・費曼。不過這至少得等到 2028 年了。此外,黃仁勳還宣佈了 NVIDIA Photonics,這似乎是迄今為止最強大的 Spectrum-X 乙太網互聯,以鐳射作為介質,可以大幅提升 GPU 之間的傳輸速度,支援擁有數百萬塊 GPU 的叢集。預計這款產品將於今年下半年上市,而新一代的 Quantum-X 將在明年下半年上市。今天的新產品中相對來說接地氣的是 Blackwell RTX Pro 系列圖形產品。其面向的是膝上型電腦和桌上型電腦,以及獨立 PC 和資料中心產品。具體規格和配置的細節尚未公佈,已知頂級解決方案將使用與 GeForce RTX 5090 相同的 GB202 晶片(但視訊記憶體會更大)。至此,英偉達看起來已經為強推理 AI 大規模落地所需巨量的計算做好了準備。最後是對未來的展望。英偉達表示,AI 的下一波浪潮必然會延伸到物理世界,主要形式會是三種機器人:工業機器人、自動駕駛車輛以及狹義的人形機器人。三種機器人都需要的算力包括預訓練、模擬環境和端側算力,這些算力英偉達都提供。物理世界的 AI 將會帶動數萬億美元的工業產值,數以十億計的機器人將會使用英偉達的計算平臺。 資料、架構、Scaling Law,這些問題在機器人領域也同樣存在。對此,英偉達的預訓練模型平臺 Cosmos、GROOT N1 以及 NVIDIA Omniverse 將會幫助物理 AI 生態的構建,推動技術的發展。其中,GROOT N1 是通用的機器人基礎模型,英偉達宣佈已經把它開源了出來。模型採用雙系統架構,靈感來自人類認知原理。在視覺語言模型的支援下,系統 2 可以推理其環境和收到的指令,從而規劃行動。然後,系統 1 將這些計劃轉化為精確、連續的機器人動作。基於可透過少量人類演示生成指數級的大量合成動作資料的生成藍圖,他們在短短 11 小時內生成了 78 萬條合成軌跡,相當於 6500 小時或連續 9 個月的人類演示資料。然後,透過將合成資料與真實資料相結合,與僅使用真實資料相比,GR00T N1 的效能提高了 40%。黃仁勳展示了與迪斯尼和 DeepMind 聯合開發的機器人平臺 Newton,以及基於該平臺打造的《星球大戰》風格的機器人 Blue。利用 Omniverse 和 Cosmos 透過數字孿生虛擬訓練機器人的 AI,然後將其轉化為現實世界的動作 Token 輸出,這就是未來機器人大規模落地的方式嗎?如果人形機器人會有恐怖谷效應的話,科幻電影裡早已為我們準備瞭解決方案。「每個人都應該關注機器人領域,它很可能會成為最大的產業,」黃仁勳說。