20萬張GPU!馬斯克掏出「地表最強」大模型Grok-3,排行榜登頂,復仇OpenAI

机器之心發表於2025-02-18

帶點特斯拉、SpaceX 基因,工程能力很強。

馬斯克 xAI 的最新旗艦大模型 Grok3 終於現身了!

中午 12 點,所有人都在馬斯克的直播預告中開始了等待。

圖片
在等到 20 分鐘、線上觀看人數達到 100 萬時,直播終於開始,馬斯克也出席了。直播主題為「我們的使命是理解整個宇宙」。
圖片
根據工程師們介紹,準確地說,Grok 3 是一個系列,不只是某一個模型。Grok 3 的輕量版本 Grok 3 mini 可以更快地回答問題,但會犧牲一些準確性。目前並非所有型號都已上線,但會從今天開始陸續推出。

馬斯克則直接表示:Grok 3 比 Grok 2 「好 10 倍」,並且擁有擴充套件的訓練資料集。
圖片
另外,原定要釋出的語音模式延期了,但也不會等太久,一週左右就行。
圖片
不過現在的大模型,總會在聚光等下被人仔細檢查。xAI 一直在使用位於孟菲斯的一個巨大的資料中心 —— 一個包含大約 20 萬塊 GPU 的資料中心來訓練 Grok 3。
圖片
這個資料中心建造的速度極快,只用了 122 天,二期還將增加到 20 萬塊 GPU。

Grok 3 釋出後有人就第一時間指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道這個計算是否準確?
圖片
看來 Grok 3 主打一個力大磚飛,我們來看下基準測試的成績吧。

在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。這些被用來對比的模型的效能與 Grok-3 mini 相近。
圖片
在大模型競技場 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,達到 1402 分,超過了包括 DeepSeek-R1 在內的所有其他模型。Grok-3 也成為有史以來首個突破 1400 分的模型。
圖片
下圖展示了 Grok-3 和其他模型在程式設計、數學、創意寫作、指令遵循、長查詢、多輪對話等場景中的排名情況。可以看到,Grok-3 在每個維度上都排第一。
圖片
比如,在編碼任務中,Grok-3 超過了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。
圖片
在 Grok-3 釋出不久,AI 大牛 Andrej Karpathy 曬出了自己的「早鳥」體驗。他的初步感覺概括如下:

  • Grok-3 + Thinking 的水平接近 OpenAI 最強模型(每月 200 美元的 o1-pro)的最先進水平,略優於 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
  • Grok-3 會嘗試解決黎曼猜想,這一點和 DeepSeek-R1 類似,不像其他許多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放棄並簡單地說這是一個重要的未解問題。
  • DeepSearch 大約在 Perplexity DeepResearch 產品的水平,但還沒有達到 OpenAI 最近釋出的「Deep Research」的水平,後者感覺更加徹底和可靠。
圖片
推理能力一騎絕塵
超越 o3 mini、R1 等所有對手

與此同時,Grok-3 支援推理能力,解鎖了測試時計算(test-time compute)能力。這意味著競爭激烈的推理模型市場又迎來了一個強勁對手。
圖片
Grok-3 的推理基準測試結果也說明了這一點,它分為了兩個版本,分別是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning

當使用更多測試時間計算時(圖中延長部分),其中在數學(AIME’24)、科學(GPQA)和編碼(LCB Oct-Feb)資料集上,Grok-3 的「推理 + 測試時計算」表現均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一眾推理模型
圖片
在 AIME 2025 數學競賽中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同樣霸佔了前兩名,大幅超越了其他推理模型。
圖片
Grok-3 的使用者介面如下所示,我們可以看到它的思考(Think)模式
圖片
在實際使用過程中,像其他推理模型一樣,Grok-3 可以展示完整的思考過程以及思考時長
圖片
不僅如此,Grok-3 還支援了「Big Brain」模式,使用更多算力來解決問題,進行更深度的思考。
圖片
Grok-3 能做到的超乎你的想象,比如「生成從地球發射、著陸火星然後在下一個發射視窗返回地球的 3D 動圖的程式碼。」
圖片
圖片
再比如「使用 pygame 製作一款混合俄羅斯方塊(Tetris)和寶石方塊(Bejeweled)的遊戲,程式碼可以很長,效果要炫酷」:
圖片
圖片
從演示來看,Grok-3 各項能力都線上的。

下一代智慧體——DeepSearch 問世

Grok-3 還具備了強大的智慧體能力,透過深度搜尋(DeepSearch)來進行深入研究、頭腦風暴、分析資料、生成影像、編寫和除錯程式碼。

可以說,DeepSearch 對標了此前 OpenAI 推出的深度搜尋 Deep Research,後者透過聯網可以在幾十分鐘內完成人類專家數小時才能完成得複雜研究任務。
圖片
我們可以看以下幾個示例,Grok-3 在 DeepSearch 模式下可以聯網進行更深入的搜尋,過程中也呼叫了思考能力。並且,搜尋本身所需要的步驟也展示了出來。
圖片
在下面這個示例中,讓 Grok-3「對瘋狂的三月比賽做出一個完整的預測」(create a full march madness bracket prediction)。
圖片
最後是訂閱和定價的相關資訊:

X Premium+ 訂閱使用者將首先獲得 Grok 3,其他功能需要訂閱 xAI 稱之為 SuperGrok 的版本。
圖片
SuperGrok 的價格為每月 30 美元或每年 300 美元,可解鎖更多推理和 DeepSearch 查詢,並提供無限的影像生成。
圖片
釋出完之後,團隊還根據網友提問進行了簡單的問答。

其中提到,xAI 將會釋出一個 Grok 驅動的語音應用(大約將在一週後釋出)。並且,使用者在與其進行語音對話時,模型會保留一些與使用者的對話記憶。

此外,馬斯克還重申了 xAI 的開源原則,即釋出了最新版的模型之後便會開源前一版本的模型。他表示在釋出了 Grok 3 穩定版之後就會開源 Grok 2(可能還需要等待幾個月時間)。這一點看來不如開源之光 DeepSeek。
圖片
馬斯克曾發推說明 xAI 的開源原則:釋出新一代模型時開源上一代模型。

最終,釋出會在一個 xAI 語音模式演示影片中落下帷幕。20萬張GPU!馬斯克掏出「地表最強」大模型Grok-3,排行榜登頂,復仇OpenAI
之後,馬斯克發推暗示自己的公司將贏得與 OpenAI 的技術競爭,因為 xAI 的創新速率有更高的一階和二階導數。
圖片
圖片
對於馬斯克今日的釋出,你怎麼看?

相關文章