Grok-2來了,能生圖識圖、效能比肩GPT-4o,馬斯克:發展猛如火箭

机器之心發表於2024-08-14
GPT-5 不出,Grok 已經趕上了。

就在谷歌與 OpenAI 互相搶新聞的同一天,馬斯克旗下的 xAI 也沒有閒著。

北京時間週三下午,xAI 正式釋出了新一代 Grok 2 大模型。
圖片
第三方大模型基準組織 Chatbot Arena 也立即更新了 LMSYS 榜的成績列表。Grok 2 的早期型號(sus-column-r)緊隨 GPT-4o(0513 版)之後可以位列第四,表現優於 Claude 3.5 Sonnet 和 GPT-4-Turbo。

它在編碼、複雜問題和數學方面表現出色。
圖片
圖片
馬斯克不免自誇起來,「Grok 的推進速度像坐了火箭。」
圖片
注意,這只是早期版本的分數,Chatbot Arena 表示後續還會測試一下正式版。

馬斯克表示,Grok-2 是具有最先進推理能力的先進語言模型。新一代包括兩個版本:Grok-2 和 Grok-2 mini。兩種模型現在都在 X 平臺上向 Grok 使用者釋出。目前,X Premium 和 Premium+ 使用者已經可以體驗 Grok-2 和 Grok-2 mini 這兩種模型。

相比此前的 Grok-1.5,Grok-2 的早期預覽版實現了重大進步,在聊天、推理、程式碼等方面展示出了領先的能力。xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 上處於測試階段,將在本月晚些時候透過企業 API 的方式提供。

新模型釋出後不到半小時,已經有網友在曬使用效果了,他使用 Grok 2 mini 生成了一張「我與馬斯克吃熱狗」的影像。
圖片
圖片
再試試其他的生成一張華盛頓的畫像。
圖片
也有人試了試 Grok 2 mini,生成一隻飛貓。
圖片
還有人生成了特斯拉 Model Y,看起來挺像的?
圖片
Grok-2 效能大 PK

隨著 xAI 將 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena,我們看到了它與其他流行開閉源模型的效能比較。

就總體的 Elo 得分而言,Grok-2 的表現要優於 Claude 系列模型和大多版本的 GPT-4。當然,排在第一位的是 OpenAI 這幾天剛放出的 GPT-4o(8 月 8 日版本)。
圖片
下圖為 Grok-2 與其他流行模型的勝率(Win Rate)比較。
圖片
下圖為 Grok 1.5 與 Grok 2 兩個版本基於事實性的勝率比較。
圖片
xAI 採取這樣的流程來對 Grok 2 模型進行評估,利用 AI Tutors 在各種任務中與模型真實互動。在每次互動過程中,Grok 2 都會向 AI Tutors 提供兩個響應,然後根據指南中列出的特定標準選擇最佳響應。

xAI 專注於在兩個關鍵領域評估模型效能, 分別是指令遵循和提供準確、真實的資訊。結果顯示,Grok 2 在利用檢索到的內容進行推理以及使用工具的能力方面有了顯著的進步,比如正確地識別缺失資訊、透過事件序列進行推理、丟棄不相關的帖子等。

基準測試成績

xAI 透過一系列學術基準對 Grok-2 模型進行了評估,這些基準包括推理、閱讀理解、數學、科學和編碼。

Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了顯著改進。在研究生水平的科學知識 (GPQA)、常識 (MMLU、MMLU-Pro) 和數學競賽問題 (MATH) 等領域的表現可與其他前沿模型相媲美。

此外,Grok-2 在基於視覺的任務方面表現也很出色,在視覺數學推理 (MathVista) 和基於文件的問答 (DocVQA) 方面效能顯著。
圖片
Grok 2 介面和功能「大變身」

過去幾個月,xAI 一直不斷地提升 x 平臺上的 Grok 體驗。現在,隨著下一代 Grok 2 的推出,xAI 重新設計了介面,如下圖所示。
圖片
當然,xAI 提供了一些新功能,比如 Conway《生命遊戲》的簡單實現。
圖片
再比如多模態理解能力(看圖說話)。
圖片
其中,Grok-2 是 xAI 最先進的 AI 助手,擁有文字和視覺理解功能,並整合了來自 X 平臺的實時資訊,可透過 X 應用程式中的 Grok 選項卡訪問。

Grok-2 mini 是一款小巧但功能強大的模型,在速度和答案質量之間取得了很好平衡。
圖片

與其前代產品相比,Grok-2 更直觀、更可控、更靈活,適用於各種任務,無論你是在尋找答案、協作寫作還是解決編碼任務。

此外,xAI 還與初創公司 Black Forest Labs 展開合作,試驗他們的 FLUX.1 模型,以擴充套件 Grok 在 X 上的功能。
圖片
本月晚些時候, xAI 還將透過新的企業 API 平臺向開發人員釋出 Grok-2 和 Grok-2 mini。即將推出的 API 建立在新的定製技術堆疊上,允許多區域推理部署,以實現全球低延遲訪問。

當然,xAI 還提供了一些增強的安全功能,例如強制性多因素身份驗證(例如使用 Yubikey、Apple TouchID 或 TOTP)。

可以看到,自 2023 年 11 月推出 Grok-1 以來,xAI 一直以驚人的速度推進該系列模型。很快,他們將釋出具有多模態理解的預覽版。xAI 之後的重點將是透過新的計算叢集來提高模型的核心推理能力。

部落格地址:https://x.ai/blog/grok-2

相關文章