阿里最新深度思考模型強不強?我們讓它和Grok3比拼了下

AI好好用發表於2025-02-27

AI好好用報導

編輯:楊文

又來了一個深度思考模型。

昨天,阿里 Qwen 團隊發了個部落格,標題就是:

image.png

乍一看,還以為電腦卡出了亂碼,但再往下一瞅,裡頭大有「乾坤」,因為這篇部落格:

不是人寫的。

而是出自阿里最新深度思考模型 QwQ-Max-Preview 之手。

圖片

沒想到,濃眉大眼的阿里也開始搞抽象了。

圖片

QwQ-Max-Preview,是阿里 Qwen 家族的最新成果。

它基於 Qwen2.5-Max 構建,是即將釋出的 QwQ-Max 的預覽版。

該部落格還表示,在不久之後,阿里將開源釋出 QwQ-Max 以及 Qwen2.5-Max,推出 Qwen Chat APP。

image.png

嗯,啥意思?難道是在現有的通義千問 App 之外,再獨立搞一個新 App?

圖片

至於 QwQ-Max-Preview 的功能,部落格裡是這麼描述的:

它在數學、程式設計以及通用任務中展現了更強的能力,同時在與 Agent 相關的工作流中也有不錯的表現。

自己說好不算好,大家說好才是真的好。

目前,QwQ-Max-Preview 可以免費體驗。

連結直達:https://chat.qwen.ai/

接下來,我們就把它和「地表最強」Grok3 對比下,看看它的實力究竟如何。


-1-

深度思考

與 Grok3 類似,阿里 QwQ-Max-Preview 的頁面也具有「深度搜尋」和「聯網搜尋」兩大功能。

圖片

先來個暗藏玄機的邏輯陷阱題。

1. 父親和女兒的年齡加起來是 100 歲,父親 50 歲,女兒多大?

看到這道題目,大部分人的第一反應就是女兒 50 歲。但在現實生活中,父親和女兒不可能同歲。

所以只要抓住這一矛盾點,再進行延伸即可,比如父親有一對雙胞胎女兒……

阿里的 QwQ-Max-Preview 覺察出其中的邏輯漏洞,措辭相當嚴謹:

僅從數學角度出發,答案是 50 歲,但後面還加了個備註,不符合實際邏輯

image.png

我們再來看看 Grok3 的回答。

Grok3 列了個方程得出 50 歲,同時也點出這在現實中並不常見。

image.png

我們在此基礎上接著問:在不改變父親年齡和總年齡的情況下,如何思考才能讓這道題目符合實際邏輯

QwQ-Max-Preview 跳出生物學親子關係的常規假設,重新定義了「父女」關係,比如收養關係。

image.png

我們沿著它的思維鏈,還發現了更多假設。

科幻片中的經典橋段,存在時間旅行,或者是類似於電影《本傑明・巴頓奇事》中的逆生長等。

語言上的歧義,父親可能是神父,女兒可能是教女。

image.png

思路一開啟,這麼理解好像也沒啥毛病。

而 Grok3 的腦回路更清奇一些。一會假設「父親」是祖父,「女兒」是孫女(差輩了😂);一會稱題目可能暗示了特殊的時間視角。


image.png

反覆推翻後,最後給出一個模糊的解釋「題目是為了引導我們反思年齡關係和問題背景,而非給出一個具體的女兒年齡。」

2. 大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅櫃子裡九舅借給十舅發給十一舅工資的 1000 元。請問誰才是小偷?

面對這段跟繞口令一樣的經典題目,QwQ-Max-Preview 和 Grok3 並沒有被繞暈,均回答正確。

不過,相比於 Grok3,QwQ-Max-Preview 給出的回答更為簡潔清晰。

一上來先給答案,然後進行行為分解、法律和邏輯定性,最後還來個誤區澄清。

image.png

Grok3 則是先理解句子結構,發現三舅說的內容是重點,再從中明確小偷,最後驗證邏輯


image.png

這一局,它們打了個平手。

3. 在一個封閉房間裡有三盞燈,門外有三個開關,每個開關分別控制一盞燈。你只能進房間一次。如何判斷出每個開關對應哪盞燈?

這道題目倆大模型都回答正確。

QwQ-Max-Preview 回答得更為條理清楚,對於邏輯的核心,僅用一句話就解釋得明明白白:透過溫度差異(冷熱)和當前狀態(亮滅)組合就能一次性區分。

圖片

Grok3 的思路和 QwQ-Max-Preview 一致,就是回答過於繁瑣。


image.png

總體來說,這一輪,它倆實力相當。

對於比大小、數數等經典數學題,現在均難不倒它們。

QwQ-Max-Preview:

image.png


Grok3:

image.png

QwQ-Max-Preview:

image.png

Grok3:

image.png

-2-

聯網搜尋

我們再來試試它們的聯網搜尋。

值得注意的是,阿里 QwQ-Max-Preview 可以同時啟用「深度思考」和「聯網搜尋」,而 Grok3 則不能。

介紹一下馬斯克讓美國公務員寫週報這件事,並以表格的形式總結網友評價。

阿里 QwQ-Max-Preview 蒐集了 10 個來源,包括新浪網、騰訊新聞、網易新聞等新聞網站。

對於事件背景,QwQ-Max-Preview 總結得相對簡單,但它生成的表格可以直接匯出到 CSV。

image.png

而 Grok3 則扒了 16 個網頁和 22 篇帖子,資訊來源包括《紐約時報》、路透社、CBS 等傳統媒體以及 X 社交平臺。

image.png

Grok3 的回答會更豐富,不過表格中網友評價角度較少。

image.png

此外,QwQ-Max-Preview 還可以拿來寫 100 個小黃球在一個大球內彈跳的程式碼:

阿里最新深度思考模型強不強?我們讓它和Grok3比拼了下

或者直接在同一個 HTML 檔案中建立一個小遊戲,將俄羅斯方塊和 2048 遊戲結合起來:

阿里最新深度思考模型強不強?我們讓它和Grok3比拼了下

它還融入了 Agent 能力,支援工具選擇,不過目前的版本尚不支援。

圖片

在部落格文章中提供的案例裡,可以看到這些工具包括影像生成、物流追蹤、二維碼生成、港股行情等。

阿里最新深度思考模型強不強?我們讓它和Grok3比拼了下

參考連結:

https://chat.qwen.ai

https://qwenlm.github.io/blog/qwq-max-preview/

https://x.com/Alibaba_Qwen/status/1894130603513319842

文中影片連結:https://mp.weixin.qq.com/s/wWe7UHkW7tXFAlLpwuBWRA

以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。

圖片

相關文章