地表最強Grok3突襲免費體驗,網友實測對比DeepSeek,發現中文彩蛋

AI好好用發表於2025-02-20

AI好好用報導

編輯:Sia

又是一個文理兼修的優等生,能薅一點是一點。

好訊息!好訊息!

堆了 20 萬張 GPU、號稱「地表最強」大模型 Grok-3 已經可用啦。

這兩天,網友們已陸續曬出截圖:
image (1).png
作為非付費使用者,我們昨天只能旁觀 Grok 3,今兒突然可以免費體驗部分功能。

但,次數有限 !

image.png
由此看來,Grok 3 ( beta )提供「三件套」服務(除了基礎模型)。

Thinking 是指啟動推理模型。

對此,AI 大神 Andrzej Karpathy 快速體驗後,評價說:

「 Grok 3 + Thinking 感覺與 OpenAI 最強商用模型(o1-pro,200 美元/月)的頂尖水平相差無幾,

比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微強點兒。」

image.pngThinking 模式

DeepSearch, 對標 OpenAI「深度研究」功能,解決更加複雜困難的問題。

圖片DeepSearch 模式

Big Brain 可能是指推理模型 + 更多思考時間,類似 OpenAI o3 mini high。

要體驗完整的 Grok3 「三件套」,大夥兒可得破費了。

即使是premium+使用者也無法使用最強的推理( Think )和深度搜尋( DeepSearch ),還必須訂閱新服務 SuperGrok。

一頓操作下來,月費估計要 50 美金。

咱還是繼續免費薅 DeepSeek 吧 )

圖片

就刷榜成績來說, Grok-3 表現確實不俗。

準確地說,Grok 3 是一個系列,不只是某一個模型。輕量版本 Grok 3 mini 可以更快地回答問題,但會犧牲一些準確性。

數理程式設計上,Grok 3 都大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

而這些被用來對比的模型的效能,與輕量版本 Grok-3 mini 相近。

image.pngimage.png在大模型競技場 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,達到 1402 分(有史以來第一個),超過了包括 DeepSeek-R1 在內的所有其他模型。

馬斯克直言:Grok 3 比 Grok 2 「好 10 倍」!

網友們也迫不及待地開始整活了。

圖片

-1-

意外啊

居然是中文寫作高手

最讓人意外的是,從刷榜成績來看,明明是個優秀理科生,偏被中文網友發現中文寫作水平真高!
中文.png
一位科技博主讓 Grok 3 寫了一篇《我的故鄉回憶》,直接把我看感動了!

「海就像村裡的鐘......日子就得跟著海走。」多好的句子啊!

煤油燈、番薯粥、鹹魚幹配粥、咯吱作響的竹床、老師的吼一嗓子、同宗同族、祠堂議事、「吵歸吵,鬧歸鬧,遇事還是齊心」
......

充滿鄉土氣息的日常文化符號,讓一個 90 年代的泉州小漁村躍然紙上,也暗示了時代變遷。

圖片來自x網友@imxiaohu

立刻有網友讓 DeepSeek 也如法炮製一篇《我的高中》。

DeepSeek 也很擅長日常細節,怎麼說呢,這些細節加起來並沒有產生一加一大於二的效應,不如 Grok 3 的深刻,情感觸動也不那麼明顯。

圖片來自X@@Louis_Chenxf。提示詞,分析一下上面這篇文章的寫作風格,寫一篇題為《我的高中生活》的文章,長度也和例文一致。

至於最後出場的 OpenAI o1 Pro,就像背了一堆典範作文、好詞好句的人,寫成的應試文。


圖片來自X@howie_serious

DeepSeek 毒舌功力已經眾人皆之,網友發現 Grok 3 辣評能力也是沒有瓶頸!

讓它犀利點評自己的推文,因為沒告訴具體賬號,這位網友先被 Grok 3 懟了一臉。告知賬號後,Grok 3 開始毒舌,就連拍它馬屁的推文也被懟:

誇得那麼猛,也不怕把自己舌頭閃了?光吹不給證據,跟放空炮有啥區別?

吹牛不帶喘氣、細節一抓就漏風 ......
image.png-2-

Think 模式

確實是個理科高手
這些只是開胃菜。

作為一個數理程式設計的強者,網友們分享最多的是 Grok3 強大程式碼能力,簡直是遊戲開發者的福音。

比如,用 python 編寫一個在正方形內彈跳的黃色小球的指令碼,正確處理碰撞,使正方形緩慢旋轉。

圖片

下面是 DeepSeek R1(左)、o1-pro(右)的結果。

圖片

繼續輸入提示詞:

put the ball in a tesseract instead of a square

就有了下面這個結果。

這裡只是基礎模型,沒有啟動「 Think 」、「 Big Brain 」哦。

圖片

還能再複雜一些嗎?

圖片

來自x@_akhaliq prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

這是一個連馬斯克本人都點讚的演示,看看 DeepSearch + Think 能創造什麼?

網友讓 DeepSearch 幫忙用 p5.js(一個網頁動畫工具)復刻《 Flappy Bird 》小遊戲,它先幫忙從網上找好了遊戲素材和圖片。

然後,在同一個聊天視窗裡啟動 Think 模式,AI 就自動把完整的遊戲程式碼給寫出來了。

結果,Run 一次就成功。

圖片


來自x@CrisGiardina DeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please

AI 大神 Andrzej Karpathy 也讓模型透過程式碼動態生成一個可互動的《卡坦島》風格遊戲地圖。目前,很少有模型能穩定地完成這個任務。

結果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月費$200)可以實現。

而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失敗。

image.png
謝耳朵玩的就是《卡坦島》風格遊戲。

除了程式碼和複雜邏輯推理, Andrzej Karpathy 發現,在數學推理、探索解決黎曼猜想的測試中,Grok 3(「Think 」)也都表現不俗。

特別是針對黎曼猜想,Grok 3(和 DeepSeek R1 )表現出探索意願,而其他模型會立即放棄並僅回覆「這是未解難題」。

一些常見的陷阱題目也難不到它,但要開啟「 Think 」。

Grok 3 知道 strawberry 中有 3 個「 r 」。它還告訴我 LOLLAPALOOZA 中有 4 個「 L 」。
image.pngGrok 3 告訴我 9.11 比 9.9 小。
image.png

-3-

DeepSearch 模式

挑戰 OpenAI ?還嫩了些

不過,對標OpenAI「深度研究」的 DeepSearch,它明顯不如前者。

Andrzej Karpathy 的評價是:

優於 Perplexity 的類似功能,弱於:OpenAI 近期釋出的「深度研究」工具。

作為一個 AI 研究助手,搜尋範圍要廣、儘量全,而且來源是真實、可靠的。

如果具有洞察力,那更好。

而 AK 發現了幻覺問題,有時會編造根本不存在的網頁連結,也會對事實做出錯誤陳述,資料統計上也存在問題。

其他網友也發現了類似問題。

image.png

除了幻覺問題,在資訊搜尋力度上,不如 Google Deep Research 全面,分析資訊時,洞察力也不如 OpenAI 的 Deep Research ,「還處在早期階段」。

例如,談到軟體企業如何應對創新者困境,谷歌的研究助手引用了 80 多個來源,Grok3 最少。

OpenAI 研究助手也只引用了 29 個來源,但分析洞察能力很強。

未命名.jpg
米勒德·菲爾莫爾(Millard Fillmore)作為美國第 13 任總統(1850-1853 ),其任內最具爭議的舉措是簽署了加強《逃奴法》的《 1850 年妥協法案》。

關於他是否違反憲法的問題,是一個非常複雜的法律問題,但 Grok 3 的研究結論似乎不這麼認為。

而 OpenAI 研究助手明顯要審慎多得多。
未命名.jpg-4-

始終翻不過的山

遺憾的是,大模型講笑話真的很爛,Grok 3的幽默感也沒有明顯改善。

看來,思考推理能力對於幽默來說,更像是砒霜?

圖片

至於倫理問題上,比如為救百萬人該不該錯誤鑑定別人的性別?大模型們仍然不善於應對。

要麼打太極,而 Grok 3 直面難題後,結論又明顯功利主義了。

image.png

最離譜的當屬 SVG 繪圖挑戰賽!

讓 AI 用程式碼畫鵜鶘騎腳踏車,就像讓它閉著眼睛拼樂高——生成的向量圖座標歪七扭八,活脫脫抽象派賽博藝術。

畢竟對 AI 來說,在 2D 網格上佈置許多圖形元素,就像讓盲人指揮交通,結果比畢加索的畫還魔幻。

圖片


以後我們會帶來更多好玩的AI用例,也歡迎大家進群交流。

Image

相關文章