Grok3登上美區榜一！我們把它和DeepSeek對比了下：馬斯克沒瞎說

AI好好用發表於2025-02-22

原文網址 : https://www.jiqizhixin.com/articles/2025-02-22-11

AI好好用報導

編輯：楊文

馬斯克線上玩梗。

昨天，號稱「地表最強」的 Grok3 突然上線。

我們第一時間衝到了「吃瓜前線」，體驗了一把它的「Think」模式，但僅問了兩個問題，它就「罷工」讓付費。

就在我們充了會員後，就看到馬斯克這哥們在 X 上高調宣佈：

Grok3 免費，直到把伺服器幹崩！

（編輯部內心 OS：不早說，白瞎了我們白花花的銀子。）

當然了，付費使用者 X Premium + 和 SuperGrok 使用者將獲得更多 Grok 3 的訪問許可權，此後還可以提前使用語音模式等高階功能。

隨著馬斯克大手一揮，Grok3 的流量瞬間超過 ChatGPT，並登上了美區免費應用排行榜第一。

經此一役，馬斯克腰桿也硬了，直接在 X 上玩起了梗，求奧特曼此刻的陰影面積。

至於 Grok3 的實力，社交平臺眾說紛紜。

有網友認為，Grok3 是最好的大模型，因為它比 GPT-4o 快得多，「Think」模式完美適配提示指南，更便宜，UI 更簡潔美觀。

https://x.com/Yuchenj_UW/status/1892634804786757712

還有網友質疑馬斯克投機取巧，設定 Prompt 讓人以為知識庫實時更新，實際上模型資料截止到 2024 年 7 月。

https://x.com/dotey/status/1892602321500094683

接下來，我們決定搞個一手實測，讓 Grok3 和 DeepSeek-R1 來個同臺競技。

-1-

Think功能：Grok3確實有兩把刷子

前幾天的釋出會上，馬斯克把 Grok3 誇得天花亂墜，還展示了各種基準測試成績。

其中在程式設計、數學、創意寫作、指令遵循、長查詢、多輪對話等多個維度上，Grok3 都排第一。

既然如此，我們就先來測測中美這倆最強大模型的「深度思考」功能。

開啟 Grok3 的「Think」按鈕，問出第一個問題：mississippi 有幾個 i?

之前曾難倒一眾大模型的經典問題，Grok3 花了 8 秒就做對。

它先是逐個檢查每個字母是不是 i，然後還用另一種方法驗證。

DeepSeek-R1 雖用時久一點，但也回答正確。它的思路和 Grok3 一致，也學會反覆驗證。

這一局，這倆大模型打了個平手。

我們又從「弱智吧」中找了道題目：為什麼朝九晚五大家能接受，反過來朝五晚九就不行？

Grok3 一上來就抓住了重點。朝九晚五是 8 個小時，而朝五晚九是 16 個小時，工作時長明顯超出人體承受範圍。

遺憾的是，DeepSeek-R1 洋洋灑灑說了一大堆，從生物鐘、通勤聊到文化、法律，就是沒點出工作時長這一根本性的矛盾。

這一局，Grok3 勝！

再來一道數學題：49 個同學要渡河，渡口有一隻能乘上 7 人的空小船，他們要全部渡過河，至少要使用這隻小船來回多少次？

正確答案是 8 次。

Grok3 這次腦子轉得沒那麼快，花了 2 分多鐘才給出正確答案。

不過它的解題過程倒是清晰，既識別出題目暗含「要有一人撐船」的坑，又逐步模擬了渡河的人數變化。

甚至最後還推匯出了關於渡河這類題目的公式：對於 N 人，容量 C，A 到 B 次數 =(N-1)/(C-1)。

DeepSeek-R1 起初腦子很清醒，曉得每次來回的淨運送人數是 6 人，也明白最後一次的特殊情況，但就是在計算總次數時功敗垂成，把最後一次單程未計入來回，算成了 7 次。

這一回，Grok3 贏！

-2-

DeepSearch功能：可搜尋X上的資訊

測完了「Think」模式，我們再來測測「DeepSearch」功能。

最近馬斯克在社交媒體 X 上丟擲「重磅炸彈」：美國社會保障系統疑似存在史上最大規模欺詐行為，超 3.94 億人領取社保。

其中百歲以上老人竟超過 2000 萬，甚至有人年齡高達 360 歲。

我們就讓這倆大模型介紹一下這事兒的來龍去脈，並上點難度，以表格的形式總結網友評價。

Grok3 DeepSearch 的路徑可以在頁面左側一覽無餘。

瞭解使用者請求後，開始搜尋、瀏覽 Reddit 討論和帖子，然後搜尋替代來源，為了資訊的準確性，還要驗證使用者資訊等。

我們扒了一下它搜尋的 52 個信源，涉及 ABC、NBC 等權威媒體以及 reddit 論壇，還有它的優勢所在：社交平臺 X 上的大量資料。

在回答上，Grok3 給了兩個「版本」。

一個是直接回答，內容相對簡單，主要是羅列關鍵要點，介紹下背景以及表格形式總結 X 網友評價。

另一個則是「詳細報告」，將該事件的來龍去脈扒了個遍，在每個事實性描述的後面都附上了來源連結，以此對抗大模型的幻覺。

DeepSeek 給出的結果更為簡潔清晰，把事情的起因、經過、結果梳理得很有條理。

與 Grok3 一樣，DeepSeek 也給出了相應的參考連結，不過它參考的信源均是搜狐、騰訊等國內新聞網站。

與 DeepSeek-R1 不同的是，Grok3 還具有多模態能力。它可以分析總結上傳檔案、圖片等。

不過，該功能與「Think」模式和「DeepSearch」模式不能同時使用。

我們上傳一張倒置的、模糊的選單，並讓它回答：不用優惠，選單上每款點一個，總共需要多少港幣？

該題目出自一個名為「ZeroBench」的視覺基準，20 多個知名模型，首次作答全部是零分。

Grok3 忙活一大頓，最後算出來錯誤結果。

因為從第一步單價識別它就「歇菜了」，明明選單上第一道菜寫的是 88 元，它看成了 18 元，其他菜品的單價也是各有各的錯法。

果然是「地表最難」新基準，「地表最強」的 Grok3 也敗下陣來。

我們又上傳了一篇名為《LLM Pretraining with Continuous Concepts》的論文，讓它用最通俗易懂的語言介紹一下。

Grok3 秒出回覆，用 AI 小白完全能看懂的語言，把這一複雜高深的新方法解釋得清清楚楚。

看來，AI 愛好者又多了一個讀論文的神器。

工具連結：

Grok3 連結：https://x.com/i/grok

DeepSeek-R1 連結：https://chat.deepseek.com/

延伸閱讀：

地表最強Grok3突襲免費體驗，網友實測對比DeepSeek，發現中文彩蛋

20萬張GPU！馬斯克掏出「地表最強」大模型Grok-3，排行榜登頂，復仇OpenAI

以後我們會帶來更多好玩的AI評測，也歡迎大家進群交流。

相關文章

《半衰期：愛莉克斯》：一把丈量我們與未來的“標尺”
2020-12-15
剛剛，我們詳細對比了吳恩達和Udacity的深度學習課程，你們感受下...
2019-03-03
吳恩達深度學習
馬斯克和貝索斯的“星球大戰”
2019-01-13
馬斯克
你知道TCP和UTP的區別是什麼嗎？說說你對它們的理解
2024-12-01
TCP
馬斯克爆料！Twitter使用者私信對美國政府完全透明
2023-04-23
馬斯克
不止馬斯克，特斯拉私有化對所有人來說都是一種巨大「解脫」
2018-08-11
馬斯克
我們應該如何看待馬斯克心心念唸的“超迴圈”技術
2019-05-04
馬斯克
馬斯克喊話Rust：“我是你粉絲”！
2022-02-23
馬斯克Rust
彭博：馬斯克超越祖克伯成全球富豪排行榜第三
2020-11-18
馬斯克
“複製”馬斯克（三）：我們要為他的“反智事業”買單嗎？
2021-01-30
馬斯克
為什麼我們說區塊鏈沒有那麼容易？
2019-11-11
區塊鏈
馬斯克起訴OpenAI和奧特曼
2024-03-02
馬斯克OpenAI奧特曼
馬斯克，憑什麼？
2022-05-30
馬斯克
是男人你就刪！馬斯克真把SpaceX和特斯拉的FB頁面刪了
2018-03-24
馬斯克
前面有一個Redux，我們去撩(聊)一下它。
2018-04-24
Redux
埃隆·馬斯克和特斯拉汽車的故事
2018-12-25
馬斯克
我是馬斯克，特斯拉被綠了，我現在慌的一批（附起訴書）
2018-09-28
馬斯克
我看了一下，我們們 flask 社群沒什麼人吶，頂起
2019-11-04
Flask
從區塊鏈技術研發者的角度，說說我的區塊鏈從業經歷和對它的理解
2019-10-28
區塊鏈
俄羅斯：‘區塊鏈屬於我們’
2018-05-08
區塊鏈
說一下那些年，我們遇到的404
2019-05-13
馬斯克貼臉開大星際之門專案：他們根本沒錢，奧特曼是騙子
2025-01-23
馬斯克奧特曼
我們總不能活在搖籃裡：馬斯克的公司正如何變革八大領域？
2018-03-13
馬斯克
雷克薩斯：2021年雷克薩斯21.91萬臺力壓寶馬和賓士奪第一名
2023-03-27
馬斯克的商業帝國
2024-10-30
馬斯克
我們和Sucker Punch聊了聊《對馬之魂導剪版》
2021-07-30
遮罩層沒有消失 - 我們來說說 async、promise 和 yield 之間的那些事
2022-01-07
遮罩Promise
馬斯克：狗狗幣Doge好於比特幣和以太坊？
2021-07-09
馬斯克比特幣
我們說說早起
2018-09-12
對程式、執行緒和協程的理解以及它們的區別
2022-04-26
執行緒
Unity提交IPO申請，我們對它進行了一次全面剖析
2020-09-07
Unity
馬斯克：我是 Rust 粉絲，但為了效能會選擇 C
2022-02-24
馬斯克Rust
馬斯克因移民用工內訌
2024-12-30
馬斯克
馬斯克：特斯拉Model Y將是一場「製造革命」
2018-05-03
馬斯克
輸給小學生後，我發現「瞎幾把按」也是一種智慧
2020-03-25
在K8S中，常用的CNI網路外掛有哪些？並說一下它們的工作原理和區別。
2024-10-24
K8S
巧用 CSS 把圖片馬賽克化
2022-02-26
CSS
說的好像有一點點道理，我都沒有反對
2020-06-23