AI好好用報導
編輯:楊文
馬斯克線上玩梗。
昨天,號稱「地表最強」的 Grok3 突然上線。
我們第一時間衝到了「吃瓜前線」,體驗了一把它的「Think」模式,但僅問了兩個問題,它就「罷工」讓付費。
就在我們充了會員後,就看到馬斯克這哥們在 X 上高調宣佈:
Grok3 免費,直到把伺服器幹崩!
(編輯部內心 OS:不早說,白瞎了我們白花花的銀子。)
當然了,付費使用者 X Premium + 和 SuperGrok 使用者將獲得更多 Grok 3 的訪問許可權,此後還可以提前使用語音模式等高階功能。
隨著馬斯克大手一揮,Grok3 的流量瞬間超過 ChatGPT,並登上了美區免費應用排行榜第一。
經此一役,馬斯克腰桿也硬了,直接在 X 上玩起了梗,求奧特曼此刻的陰影面積。
至於 Grok3 的實力,社交平臺眾說紛紜。
有網友認為,Grok3 是最好的大模型,因為它比 GPT-4o 快得多,「Think」模式完美適配提示指南,更便宜,UI 更簡潔美觀。
https://x.com/Yuchenj_UW/status/1892634804786757712
還有網友質疑馬斯克投機取巧,設定 Prompt 讓人以為知識庫實時更新,實際上模型資料截止到 2024 年 7 月。
https://x.com/dotey/status/1892602321500094683
接下來,我們決定搞個一手實測,讓 Grok3 和 DeepSeek-R1 來個同臺競技。
-1-
Think功能:Grok3確實有兩把刷子
前幾天的釋出會上,馬斯克把 Grok3 誇得天花亂墜,還展示了各種基準測試成績。
其中在程式設計、數學、創意寫作、指令遵循、長查詢、多輪對話等多個維度上,Grok3 都排第一。
既然如此,我們就先來測測中美這倆最強大模型的「深度思考」功能。
開啟 Grok3 的「Think」按鈕,問出第一個問題:mississippi 有幾個 i?
之前曾難倒一眾大模型的經典問題,Grok3 花了 8 秒就做對。
它先是逐個檢查每個字母是不是 i,然後還用另一種方法驗證。
DeepSeek-R1 雖用時久一點,但也回答正確。它的思路和 Grok3 一致,也學會反覆驗證。
這一局,這倆大模型打了個平手。
我們又從「弱智吧」中找了道題目:為什麼朝九晚五大家能接受,反過來朝五晚九就不行?
Grok3 一上來就抓住了重點。朝九晚五是 8 個小時,而朝五晚九是 16 個小時,工作時長明顯超出人體承受範圍。
遺憾的是,DeepSeek-R1 洋洋灑灑說了一大堆,從生物鐘、通勤聊到文化、法律,就是沒點出工作時長這一根本性的矛盾。
這一局,Grok3 勝!
再來一道數學題:49 個同學要渡河,渡口有一隻能乘上 7 人的空小船,他們要全部渡過河,至少要使用這隻小船來回多少次?
正確答案是 8 次。
Grok3 這次腦子轉得沒那麼快,花了 2 分多鐘才給出正確答案。
不過它的解題過程倒是清晰,既識別出題目暗含「要有一人撐船」的坑,又逐步模擬了渡河的人數變化。
甚至最後還推匯出了關於渡河這類題目的公式:對於 N 人,容量 C,A 到 B 次數 =(N-1)/(C-1)。
DeepSeek-R1 起初腦子很清醒,曉得每次來回的淨運送人數是 6 人,也明白最後一次的特殊情況,但就是在計算總次數時功敗垂成,把最後一次單程未計入來回,算成了 7 次。
這一回,Grok3 贏!
-2-
DeepSearch功能:可搜尋X上的資訊
測完了「Think」模式,我們再來測測「DeepSearch」功能。
最近馬斯克在社交媒體 X 上丟擲「重磅炸彈」:美國社會保障系統疑似存在史上最大規模欺詐行為,超 3.94 億人領取社保。
其中百歲以上老人竟超過 2000 萬,甚至有人年齡高達 360 歲。
我們就讓這倆大模型介紹一下這事兒的來龍去脈,並上點難度,以表格的形式總結網友評價。
Grok3 DeepSearch 的路徑可以在頁面左側一覽無餘。
瞭解使用者請求後,開始搜尋、瀏覽 Reddit 討論和帖子,然後搜尋替代來源,為了資訊的準確性,還要驗證使用者資訊等。
我們扒了一下它搜尋的 52 個信源,涉及 ABC、NBC 等權威媒體以及 reddit 論壇,還有它的優勢所在:社交平臺 X 上的大量資料。
在回答上,Grok3 給了兩個「版本」。
一個是直接回答,內容相對簡單,主要是羅列關鍵要點,介紹下背景以及表格形式總結 X 網友評價。
另一個則是「詳細報告」,將該事件的來龍去脈扒了個遍,在每個事實性描述的後面都附上了來源連結,以此對抗大模型的幻覺。
DeepSeek 給出的結果更為簡潔清晰,把事情的起因、經過、結果梳理得很有條理。
與 Grok3 一樣,DeepSeek 也給出了相應的參考連結,不過它參考的信源均是搜狐、騰訊等國內新聞網站。
與 DeepSeek-R1 不同的是,Grok3 還具有多模態能力。它可以分析總結上傳檔案、圖片等。
不過,該功能與「Think」模式和「DeepSearch」模式不能同時使用。
我們上傳一張倒置的、模糊的選單,並讓它回答:不用優惠,選單上每款點一個,總共需要多少港幣?
該題目出自一個名為「ZeroBench」的視覺基準,20 多個知名模型,首次作答全部是零分。
Grok3 忙活一大頓,最後算出來錯誤結果。
因為從第一步單價識別它就「歇菜了」,明明選單上第一道菜寫的是 88 元,它看成了 18 元,其他菜品的單價也是各有各的錯法。
果然是「地表最難」新基準,「地表最強」的 Grok3 也敗下陣來。
我們又上傳了一篇名為《LLM Pretraining with Continuous Concepts》的論文,讓它用最通俗易懂的語言介紹一下。
Grok3 秒出回覆,用 AI 小白完全能看懂的語言,把這一複雜高深的新方法解釋得清清楚楚。
看來,AI 愛好者又多了一個讀論文的神器。
工具連結:
Grok3 連結:https://x.com/i/grok
DeepSeek-R1 連結:https://chat.deepseek.com/
延伸閱讀:
地表最強Grok3突襲免費體驗,網友實測對比DeepSeek,發現中文彩蛋
20萬張GPU!馬斯克掏出「地表最強」大模型Grok-3,排行榜登頂,復仇OpenAI
以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。