Grok-2來了，能生圖識圖、效能比肩GPT-4o，馬斯克：發展猛如火箭

机器之心發表於2024-08-14

原文網址 : https://www.jiqizhixin.com/articles/2024-08-14-9

GPT-5 不出，Grok 已經趕上了。

就在谷歌與 OpenAI 互相搶新聞的同一天，馬斯克旗下的 xAI 也沒有閒著。

北京時間週三下午，xAI 正式釋出了新一代 Grok 2 大模型。

第三方大模型基準組織 Chatbot Arena 也立即更新了 LMSYS 榜的成績列表。Grok 2 的早期型號（sus-column-r）緊隨 GPT-4o（0513 版）之後可以位列第四，表現優於 Claude 3.5 Sonnet 和 GPT-4-Turbo。

它在編碼、複雜問題和數學方面表現出色。

馬斯克不免自誇起來，「Grok 的推進速度像坐了火箭。」

注意，這只是早期版本的分數，Chatbot Arena 表示後續還會測試一下正式版。

馬斯克表示，Grok-2 是具有最先進推理能力的先進語言模型。新一代包括兩個版本：Grok-2 和 Grok-2 mini。兩種模型現在都在 X 平臺上向 Grok 使用者釋出。目前，X Premium 和 Premium+ 使用者已經可以體驗 Grok-2 和 Grok-2 mini 這兩種模型。

相比此前的 Grok-1.5，Grok-2 的早期預覽版實現了重大進步，在聊天、推理、程式碼等方面展示出了領先的能力。xAI 表示，Grok-2 和 Grok-2 mini 目前正在 X 上處於測試階段，將在本月晚些時候透過企業 API 的方式提供。

新模型釋出後不到半小時，已經有網友在曬使用效果了，他使用 Grok 2 mini 生成了一張「我與馬斯克吃熱狗」的影像。

再試試其他的生成一張華盛頓的畫像。

也有人試了試 Grok 2 mini，生成一隻飛貓。

還有人生成了特斯拉 Model Y，看起來挺像的？

Grok-2 效能大 PK

隨著 xAI 將 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena，我們看到了它與其他流行開閉源模型的效能比較。

就總體的 Elo 得分而言，Grok-2 的表現要優於 Claude 系列模型和大多版本的 GPT-4。當然，排在第一位的是 OpenAI 這幾天剛放出的 GPT-4o（8 月 8 日版本）。

下圖為 Grok-2 與其他流行模型的勝率（Win Rate）比較。

下圖為 Grok 1.5 與 Grok 2 兩個版本基於事實性的勝率比較。

xAI 採取這樣的流程來對 Grok 2 模型進行評估，利用 AI Tutors 在各種任務中與模型真實互動。在每次互動過程中，Grok 2 都會向 AI Tutors 提供兩個響應，然後根據指南中列出的特定標準選擇最佳響應。

xAI 專注於在兩個關鍵領域評估模型效能，分別是指令遵循和提供準確、真實的資訊。結果顯示，Grok 2 在利用檢索到的內容進行推理以及使用工具的能力方面有了顯著的進步，比如正確地識別缺失資訊、透過事件序列進行推理、丟棄不相關的帖子等。

基準測試成績

xAI 透過一系列學術基準對 Grok-2 模型進行了評估，這些基準包括推理、閱讀理解、數學、科學和編碼。

Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了顯著改進。在研究生水平的科學知識 (GPQA)、常識 (MMLU、MMLU-Pro) 和數學競賽問題 (MATH) 等領域的表現可與其他前沿模型相媲美。

此外，Grok-2 在基於視覺的任務方面表現也很出色，在視覺數學推理 (MathVista) 和基於文件的問答 (DocVQA) 方面效能顯著。

Grok 2 介面和功能「大變身」

過去幾個月，xAI 一直不斷地提升 x 平臺上的 Grok 體驗。現在，隨著下一代 Grok 2 的推出，xAI 重新設計了介面，如下圖所示。

當然，xAI 提供了一些新功能，比如 Conway《生命遊戲》的簡單實現。

再比如多模態理解能力（看圖說話）。

其中，Grok-2 是 xAI 最先進的 AI 助手，擁有文字和視覺理解功能，並整合了來自 X 平臺的實時資訊，可透過 X 應用程式中的 Grok 選項卡訪問。

Grok-2 mini 是一款小巧但功能強大的模型，在速度和答案質量之間取得了很好平衡。

與其前代產品相比，Grok-2 更直觀、更可控、更靈活，適用於各種任務，無論你是在尋找答案、協作寫作還是解決編碼任務。

此外，xAI 還與初創公司 Black Forest Labs 展開合作，試驗他們的 FLUX.1 模型，以擴充套件 Grok 在 X 上的功能。

本月晚些時候， xAI 還將透過新的企業 API 平臺向開發人員釋出 Grok-2 和 Grok-2 mini。即將推出的 API 建立在新的定製技術堆疊上，允許多區域推理部署，以實現全球低延遲訪問。

當然，xAI 還提供了一些增強的安全功能，例如強制性多因素身份驗證（例如使用 Yubikey、Apple TouchID 或 TOTP）。

可以看到，自 2023 年 11 月推出 Grok-1 以來，xAI 一直以驚人的速度推進該系列模型。很快，他們將釋出具有多模態理解的預覽版。xAI 之後的重點將是透過新的計算叢集來提高模型的核心推理能力。

^{部落格地址：https://x.ai/blog/grok-2}

孫宇晨“元宇宙建國”，勢要與馬斯克比肩？
2022-12-03
元宇宙馬斯克
要上天嗎？馬斯克：新款特斯拉跑車將裝置火箭推進器瞬間能起飛
2019-01-15
馬斯克
剛剛，OpenAI官方發文駁斥馬斯克，自曝8年間郵件往來截圖
2024-03-06
OpenAI馬斯克
《華爾街日報》：圖解馬斯克4925條推文
2019-02-27
圖解馬斯克
馬斯克剛公佈Twitter資料讀取架構圖
2022-11-20
馬斯克架構
馬斯克：我是 Rust 粉絲，但為了效能會選擇 C
2022-02-24
馬斯克Rust
日均tokens使用量超5000億，AI生圖玩法猛猛上新：豆包大模型為什麼越來越「香」了？
2024-07-29
AI大模型
首次！SpaceX完成「筷子夾火箭」式星艦回收，馬斯克8年前設想成真
2024-10-14
馬斯克
馬斯克，憑什麼？
2022-05-30
馬斯克
canvas實現圖片馬賽克
2019-02-27
Canvas
馬賽克拼圖製作工具
2021-10-11
三個程式設計師奮戰三天重寫推理堆疊，Grok-2 mini直接提速兩倍，馬斯克親發賀電
2024-08-26
程式設計師馬斯克
JS實現馬賽克圖片效果
2018-08-28
JS
巧用 CSS 把圖片馬賽克化
2022-02-26
CSS
馬斯克和貝索斯的“星球大戰”
2019-01-13
馬斯克
馬斯克的首款多模態大模型來了，GPT-4V又被超越了一次
2024-04-15
馬斯克大模型GPT
馬斯克的商業帝國
2024-10-30
馬斯克
馬斯克自曝特斯拉渣產能原因：我錯了，過分信任自動化機器人
2018-04-18
馬斯克機器人
特斯拉迎來首位女董事長！馬斯克保留CEO一職
2018-11-08
馬斯克
Mac圖片馬賽克工具—Magic Hider for Mac
2024-02-01
MacIDE
three.js 將圖片馬賽克化
2020-07-19
JS
馬斯克連發三推，釋出退出OpenAI內情
2019-02-19
馬斯克OpenAI
馬斯克預測：十年內人類能夠將大腦和電腦連線起來
2019-01-02
馬斯克
馬斯克因移民用工內訌
2024-12-30
馬斯克
馬斯克大模型Grok1.5來了：推理能力大升級，支援128k上下文
2024-03-29
馬斯克大模型
新火種AI | 馬斯克的AI大模型來了！其他AI不能回答的問題，它能回答嗎？
2023-11-11
AI馬斯克大模型
馬賽克圖片製作軟體：TurboMosaic啟用
2022-11-08
AI
製作馬賽克拼圖的工具：TurboMosaic Mac版
2021-02-09
AIMac
馬斯克起訴OpenAI和奧特曼
2024-03-02
馬斯克OpenAI奧特曼
為什麼馬斯克不能模仿微信？
2022-11-24
馬斯克
全網批發馬斯克「毒雞湯」的神器，竟是幼兒園小朋友搞出來的？
2024-07-05
馬斯克
谷歌世界模型爆發：單張圖生成可玩3D世界，還要和馬斯克一起做AI遊戲
2024-12-05
谷歌世界模型3D馬斯克AI遊戲
柏圖斯
2018-05-25
演算法(四):圖解狄克斯特拉演算法
2019-03-04
演算法圖解
ChatGPT頻頻發瘋！馬斯克警告：AI將毀滅人類
2023-03-02
ChatGPT馬斯克AI
TurboMosaic for Mac 蒙太奇馬賽克圖片製作軟體
2022-06-11
AIMac
【集合論】序關係 ( 哈斯圖示例 | 整除關係哈斯圖 | 包含關係哈斯圖 | 加細關係哈斯圖 )
2020-10-13
馬斯克將在本週開源xAI Grok
2024-03-12
馬斯克AI

Grok-2來了，能生圖識圖、效能比肩GPT-4o，馬斯克：發展猛如火箭

相關文章