阿里最新深度思考模型強不強？我們讓它和Grok3比拼了下

AI好好用發表於2025-02-27

原文網址 : https://www.jiqizhixin.com/articles/2025-02-27-3

阿里模型

AI好好用報導

編輯：楊文

又來了一個深度思考模型。

昨天，阿里 Qwen 團隊發了個部落格，標題就是：

乍一看，還以為電腦卡出了亂碼，但再往下一瞅，裡頭大有「乾坤」，因為這篇部落格：

不是人寫的。

而是出自阿里最新深度思考模型 QwQ-Max-Preview 之手。

沒想到，濃眉大眼的阿里也開始搞抽象了。

QwQ-Max-Preview，是阿里 Qwen 家族的最新成果。

它基於 Qwen2.5-Max 構建，是即將釋出的 QwQ-Max 的預覽版。

該部落格還表示，在不久之後，阿里將開源釋出 QwQ-Max 以及 Qwen2.5-Max，並推出 Qwen Chat APP。

嗯，啥意思？難道是在現有的通義千問 App 之外，再獨立搞一個新 App？

至於 QwQ-Max-Preview 的功能，部落格裡是這麼描述的：

它在數學、程式設計以及通用任務中展現了更強的能力，同時在與 Agent 相關的工作流中也有不錯的表現。

自己說好不算好，大家說好才是真的好。

目前，QwQ-Max-Preview 可以免費體驗。

連結直達：https://chat.qwen.ai/

接下來，我們就把它和「地表最強」Grok3 對比下，看看它的實力究竟如何。

-1-

深度思考

與 Grok3 類似，阿里 QwQ-Max-Preview 的頁面也具有「深度搜尋」和「聯網搜尋」兩大功能。

先來個暗藏玄機的邏輯陷阱題。

1. 父親和女兒的年齡加起來是 100 歲，父親 50 歲，女兒多大？

看到這道題目，大部分人的第一反應就是女兒 50 歲。但在現實生活中，父親和女兒不可能同歲。

所以只要抓住這一矛盾點，再進行延伸即可，比如父親有一對雙胞胎女兒……

阿里的 QwQ-Max-Preview 覺察出其中的邏輯漏洞，措辭相當嚴謹：

僅從數學角度出發，答案是 50 歲，但後面還加了個備註，不符合實際邏輯。

我們再來看看 Grok3 的回答。

Grok3 列了個方程得出 50 歲，同時也點出這在現實中並不常見。

我們在此基礎上接著問：在不改變父親年齡和總年齡的情況下，如何思考才能讓這道題目符合實際邏輯？

QwQ-Max-Preview 跳出生物學親子關係的常規假設，重新定義了「父女」關係，比如收養關係。

我們沿著它的思維鏈，還發現了更多假設。

科幻片中的經典橋段，存在時間旅行，或者是類似於電影《本傑明・巴頓奇事》中的逆生長等。

語言上的歧義，父親可能是神父，女兒可能是教女。

思路一開啟，這麼理解好像也沒啥毛病。

而 Grok3 的腦回路更清奇一些。一會假設「父親」是祖父，「女兒」是孫女（差輩了😂）；一會稱題目可能暗示了特殊的時間視角。

反覆推翻後，最後給出一個模糊的解釋「題目是為了引導我們反思年齡關係和問題背景，而非給出一個具體的女兒年齡。」

2. 大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅櫃子裡九舅借給十舅發給十一舅工資的 1000 元。請問誰才是小偷？

面對這段跟繞口令一樣的經典題目，QwQ-Max-Preview 和 Grok3 並沒有被繞暈，均回答正確。

不過，相比於 Grok3，QwQ-Max-Preview 給出的回答更為簡潔清晰。

一上來先給答案，然後進行行為分解、法律和邏輯定性，最後還來個誤區澄清。

Grok3 則是先理解句子結構，發現三舅說的內容是重點，再從中明確小偷，最後驗證邏輯。

這一局，它們打了個平手。

3. 在一個封閉房間裡有三盞燈，門外有三個開關，每個開關分別控制一盞燈。你只能進房間一次。如何判斷出每個開關對應哪盞燈？

這道題目倆大模型都回答正確。

QwQ-Max-Preview 回答得更為條理清楚，對於邏輯的核心，僅用一句話就解釋得明明白白：透過溫度差異（冷熱）和當前狀態（亮滅）組合就能一次性區分。

Grok3 的思路和 QwQ-Max-Preview 一致，就是回答過於繁瑣。

總體來說，這一輪，它倆實力相當。

對於比大小、數數等經典數學題，現在均難不倒它們。

QwQ-Max-Preview：

Grok3:

QwQ-Max-Preview：

Grok3:

-2-

聯網搜尋

我們再來試試它們的聯網搜尋。

值得注意的是，阿里 QwQ-Max-Preview 可以同時啟用「深度思考」和「聯網搜尋」，而 Grok3 則不能。

介紹一下馬斯克讓美國公務員寫週報這件事，並以表格的形式總結網友評價。

阿里 QwQ-Max-Preview 蒐集了 10 個來源，包括新浪網、騰訊新聞、網易新聞等新聞網站。

對於事件背景，QwQ-Max-Preview 總結得相對簡單，但它生成的表格可以直接匯出到 CSV。

而 Grok3 則扒了 16 個網頁和 22 篇帖子，資訊來源包括《紐約時報》、路透社、CBS 等傳統媒體以及 X 社交平臺。

Grok3 的回答會更豐富，不過表格中網友評價角度較少。

此外，QwQ-Max-Preview 還可以拿來寫 100 個小黃球在一個大球內彈跳的程式碼：

阿里最新深度思考模型強不強？我們讓它和Grok3比拼了下

或者直接在同一個 HTML 檔案中建立一個小遊戲，將俄羅斯方塊和 2048 遊戲結合起來：

阿里最新深度思考模型強不強？我們讓它和Grok3比拼了下

它還融入了 Agent 能力，支援工具選擇，不過目前的版本尚不支援。

在部落格文章中提供的案例裡，可以看到這些工具包括影像生成、物流追蹤、二維碼生成、港股行情等。

阿里最新深度思考模型強不強？我們讓它和Grok3比拼了下

參考連結：

https://chat.qwen.ai

https://qwenlm.github.io/blog/qwq-max-preview/

https://x.com/Alibaba_Qwen/status/1894130603513319842

文中影片連結：https://mp.weixin.qq.com/s/wWe7UHkW7tXFAlLpwuBWRA

以後我們會帶來更多好玩的AI評測，也歡迎大家進群交流。

Grok3登上美區榜一！我們把它和DeepSeek對比了下：馬斯克沒瞎說
2025-02-22
馬斯克
一週上線 4 次，我們拼了！
2024-08-29
你強任你強，我幹我本行——Java基礎(下)
2019-02-26
Java
位元組二面掛｜反饋需要協作能力強和對業務深度思考比較深刻的人
2024-12-13
沐瞳印尼電競負責人：理解並超越使用者需求，讓我們不斷變強
2022-05-23
如何讓我們的模型更簡潔
2022-02-17
模型
我們不再是我們 RTX 2070喜獲強勁升級
2019-07-12
為什麼我們放棄了 Vue？Vue 和 React 深度對比
2020-08-09
VueReact
深度學習在視覺上的侷限性以及我們如何對付它們
2019-08-26
深度學習視覺
伯克利提出時序差分模型TDM：讓深度強化學習更像人類
2018-05-23
模型強化學習
阿里啟動新專案：Nacos，比 Eureka 更強！
2019-01-04
阿里
強人工智慧離我們還有多遠？
2019-05-10
人工智慧
AI不能「取代」醫生給我們看病，這並不是因為AI不夠強大
2019-04-30
AI
什麼?又來智慧AI程式設計?讓不讓我們活了!
2023-03-30
AI程式設計
地表最強Grok3突襲免費體驗，網友實測對比DeepSeek，發現中文彩蛋
2025-02-20
你強任你強，我幹我本行——Java基礎(上）
2018-03-06
Java
你強任你強，我幹我本行——Java基礎(中)
2018-03-08
Java
阿里開源的32B大模型到底強在哪裡？
2024-04-10
阿里大模型
前面有一個Redux，我們去撩(聊)一下它。
2018-04-24
Redux
mac最強深度清理軟體 App Cleaner & Uninstaller破解中文最新版
2023-12-14
MacAPP
DiT：Transformers 與擴散模型強強聯手
2023-01-16
ORM模型
面對“失業焦慮”我們可以做些什麼？讓 AI 幫助自己變得更強大！
2023-05-16
AI
讀懂本文讓你和深度學習模型“官宣”
2018-10-26
深度學習模型
剛剛，我們詳細對比了吳恩達和Udacity的深度學習課程，你們感受下...
2019-03-03
吳恩達深度學習
阿里排查神器，太強了！
2023-01-10
阿里
許文強和高啟強
2024-07-09
當我們談深度學習時，我們用它落地了什麼？阿里雲內容安全功能全新升級
2018-08-26
深度學習阿里
深度學習煉丹-資料處理和增強
2022-12-20
深度學習
鋪天蓋地的炒作下，我依然覺得深度強化學習是浪費時間
2020-02-16
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
深入NGINX：我們如何設計它的效能和擴充套件性
2019-05-11
Nginx套件
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
讓AI簡單且強大：深度學習引擎OneFlow技術實踐
2019-04-25
AI深度學習
那些殊途同歸的設計模式，讓我用一句話總結它們
2019-05-12
設計模式
不斷強化速度優勢，讓順豐慢得到妥善解決
2021-06-18
故障模型哪家強？PDR 模型來幫忙
2022-04-18
模型
青瓷COO曾祥碩：在《最強蝸牛》《不思議迷宮》背後，我們怎麼做遊戲？
2020-08-11
遊戲
當我們談深度學習時，我們用它落地了什麼？
2018-08-05
深度學習
matlab影像對比度增強，拉伸和灰度變換
2018-10-16
Matlab

阿里最新深度思考模型強不強？我們讓它和Grok3比拼了下

相關文章