經過一系列測試 —— 從創意寫作到複雜的教學,DeepSeek-R1 的綜合實力完全能和 OpenAI 的付費「精英」們掰手腕。原來用對方法,價效比路線也能玩轉 AI 競技場!
DeepSeek 釋出其開放權重的 R1 推理模型僅一週時間,多次震驚海內外。不僅訓練成本僅為 OpenAI 最先進的 o1 模型的一小部分,並且效能還能與其媲美。
雖然 DeepSeek 可以透過常見的基準測試結果和 Chatbot Arena 排行榜來證明其模型的競爭力,但沒有什麼比直接使用案例更能讓人感受到模型的實用性。為此,科技媒體 arstechnica 資深編輯決定將 DeepSeek 的 R1 模型與 OpenAI 的 ChatGPT 模型進行對比。這次測試並非旨在解決最困難的問題,而是更側重於模擬使用者可能提出的日常問題。
此次測試中,DeepSeek 的每個回答都與 ChatGPT 的 20 美元 / 月的 o1 模型和 200 美元 / 月的 o1 Pro 模型進行對比,以評估其與 OpenAI「最先進」產品以及大多數 AI 消費者使用的「日常」產品的表現。
本次測試中所用的 prompt 涵蓋創意寫作、數學、指令遵循等領域,以及所謂的「hard prompts」—— 這些 prompt「設計得更加複雜、要求更高且更嚴謹」。在評判結果上,該團隊不僅考慮了模型回答的正確性,也考慮了一些主觀質量因素,並且參考了模型輸出的思維鏈,更好地瞭解它們內部的運作機制。
提前劇透一下,以下一共設計 8 場「擂臺比拼」,DeepSeek:o1:o1 Pro 的比拼結果為 5:2:4。比拼的詳細內容如何,一起看下去吧。
擂臺一:老爸笑話
試題 prompt:寫五個原創的老爸笑話。
注:老爸笑話(Dad jokes) 是一種特定型別的笑話,通常以簡單、直接,甚至有點幼稚或尷尬的雙關語或文字遊戲為特點。這類笑話通常被認為是「爸爸級」的幽默,因為它們常常是父親們喜歡講的那種輕鬆、無害,還有點「冷」的笑話。
比拼結果:總體來看,這次三個模型似乎比過去更認真地對待了「原創」笑話的要求。在生成的 15 個笑話中,只有兩個能在網上找到類似的例子:o1 的「用手錶做的腰帶」和 o1 Pro 的「睡在一堆舊雜誌上」。拋開這兩個笑話,三個模型生成結果差異較大。三個模型都生成了不少笑話,但要麼過於勉強地追求雙關,要麼根本說不通。
儘管如此,還是有一些完全原創、令人忍俊不禁的笑話脫穎而出。測評團隊尤其喜歡 DeepSeek R1 的腳踏車笑話以及 o1 的吸塵器樂隊笑話。與一年多前 LLM 生成的笑話相比,這些笑話在幽默方面確實取得了一些進展。
勝者:DeepSeek R1 。ChatGPT o1 的笑話總體上可能比 DeepSeek R1 略勝一籌,但由於包含了一個非原創笑話而扣分。ChatGPT o1 Pro 顯然是輸家,沒有一個原創笑話能被該團隊認為有一點點好笑。
擂臺二:Abraham 「Hoops」 Lincoln
試題 prompt:寫一篇關於亞伯拉罕・林肯發明籃球的兩段創意故事。
DeepSeek R1 的響應。
ChatGPT o1 的響應。
ChatGPT o1 Pro 的響應。
比拼結果:DeepSeek R1 的回覆以一種荒誕的方式回應了這個荒誕的提示。該團隊非常喜歡其中的一些細節,比如它創造了一項「讓人們不是跳進戰壕,而是跳向榮耀」的運動,以及規則的「第 13 條修正案」,禁止球員被「糟糕的體育精神所奴役」。DeepSeek 還因提到林肯的現實裡的真實秘書 John Hay 以及總統的慢性失眠症而加分 —— 據說失眠症促使他發明了一種氣動枕頭。
相比之下,ChatGPT o1 的回覆顯得更加中規中矩。故事主要聚焦於早期籃球比賽可能的樣子,以及林肯和他的將軍們如何進一步完善這項運動。雖然提到了一些關於林肯的細節(比如他的高頂禮帽、領導一個處於戰爭中的國家),但其中有很多填充內容,使得故事顯得更加普通。
ChatGPT o1 Pro 則選擇將故事設定在「林肯成為總統之前很久」的時期,讓這項運動成為斯普林菲爾德(林肯的故鄉)的熱門活動。該模型還嘗試將林肯最終「團結一個分裂國家」的能力與觀看籃球比賽的鎮民們的歡呼聯絡起來。此外,為這項運動創造的名字「Lincoln's Hoop and Toss」也贏得了額外加分。
勝者: DeepSeek R1。儘管 o1 Pro 表現不錯,但 DeepSeek R1 回覆中那種純粹的荒誕感最終贏得了該團隊的青睞。
擂臺三:另類藏頭詩
試題 prompt:寫一段短文,其中每句話的第二個字母拼出單詞「CODE」。這段文字應顯得自然,不要明顯暴露這一模式。
DeepSeek R1 的響應。
ChatGPT o1 的響應。
ChatGPT o1 Pro 的響應。
比拼結果:這是本次測試中 DeepSeek R1 最大的失敗,因為它使用了每句話的第一個字母來拼寫秘密程式碼,而不是要求的第二個字母。然而,當團隊深入檢視了模型對其 220 秒「思考過程」的詳細解釋時,意外發現了一段符合提示的段落,這段內容顯然在給出最終答案之前被丟棄了:
School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.
ChatGPT o1 也犯了與 DeepSeek 相同的錯誤,使用了每句話的第一個字母而非第二個字母,儘管其「思考細節」中聲稱它「確保字母順序」並「確保對齊」。ChatGPT o1 Pro 是唯一一個似乎理解了任務的模型,經過四分鐘的思考後,精心設計了一段類似俳句的回覆,並正確嵌入了「CODE」一詞。
勝者:ChatGPT o1 Pro ,它是唯一一個能夠正確遵循指示的模型。
擂臺四:歷史顏色命名
試題 prompt:如果 Magenta 這個城鎮不存在,這種顏色還會被稱為「品紅」(magenta)嗎?
DeepSeek R1 的響應。
ChatGPT o1 的響應。
ChatGPT o1 Pro 的響應。
比拼結果:三個模型都正確地指出了「品紅」這一顏色名稱與 Magenta 鎮的關係,以及 1859 年 Magenta 戰役,這些因素共同使這種顏色廣為人知。三個回覆還提到了「品紅」的另一個名稱「洋紅色」(fuchsine),以及它與顏色相似的花卉「倒掛金鐘」(fuchsia)的聯絡。
從風格上看,ChatGPT o1 Pro 略勝一籌,它將回復分為簡短的「一句話答案」和詳細的分點解釋,最後還附上了一個連貫的總結。然而,就原始資訊而言,三個模型的表現都非常出色。
勝者:ChatGPT o1 Pro 憑藉風格上的細微優勢勝出。
擂臺五:挑戰巨型質數
試題 prompt:第 10 億個質數是多少?
DeepSeek R1 的響應。
ChatGPT o1 的響應(第一部分)。
ChatGPT o1 的響應(第二部分)。
ChatGPT o1 Pro 的響應(第一部分)。
ChatGPT o1 Pro 的響應(第二部分)。
比拼結果:我們看到 DeepSeek 和 ChatGPT 模型在這裡表現出顯著的差異。
DeepSeek R1 是唯一一個給出精確答案的模型,它引用了 PrimeGrid 和 The Prime Pages 的公開計算結果,一口咬定第 10 億個質數是 22,801,763,489,還補充質數定理驗證合理性。
ChatGPT 全系列:集體攤手(表情)—— o1 說「這數沒公開記錄」,o1 Pro 補刀「目前沒有權威專案定位過它」。這兩款 ChatGPT 模型詳細討論了素數定理及其如何用於估算答案大致位於 228 億到 230 億之間。DeepSeek 簡要提及了這一理論,但主要是用來驗證 Prime Pages 和 PrimeGrid 提供的答案是否合理。
有趣的是,這兩款模型在其「思考過程」中提到了「參考文獻」或在計算過程中「比較精煉的參考資料」,這暗示它們的訓練資料中可能包含一些深藏的質數列表。然而,這兩個模型都不願意或無法直接引用這些列表來給出精確的答案。
勝者:DeepSeek R1 憑精確答案碾壓勝出!(但 ChatGPT 的估算能力也算人類高質量數學課代表了)
擂臺六:趕飛機
試題 prompt:我需要你幫我制定一個時間表,基於以下幾點:我的飛機早上 6:30 起飛、需要在起飛前 1 小時到達機場、去機場需要 45 分鐘、我需要 1 小時來穿衣和吃早餐。
請一步一步考慮,告訴我應該幾點起床,什麼時候出發,這樣才能準時趕上 6:30 的航班。
DeepSeek R1 的響應。
ChatGPT o1 的響應(第一部分)。
ChatGPT o1 的響應(第二部分)。
ChatGPT o1 Pro 的響應。
比拼結果:三款模型都算對了基礎時間 —— 要想趕上 6:30 的航班,得凌晨 3:45 起床(反人類的早啊!)。不過細節見真章:ChatGPT o1 搶跑成功,生成答案比 DeepSeek R1 快 7 秒(比自家 o1 Pro 的 77 秒更是快出天際),如果用效能更強的 o1 Mini 估計還能更快。
DeepSeek R1 後程發力:自帶「為什麼有效」板塊,警示交通 / 安檢延誤風險,還有「提前一晚準備好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁標註的(禁止貪睡!)時,我們笑出了聲 —— 多花 7 秒思考絕對值回票價。
勝者:DeepSeek R1 憑藉細節設計險勝!
擂臺七:追蹤球的下落
試題 prompt:在我的廚房裡,有一張桌子,上面放著一個杯子,杯子裡有一個球。我把杯子移到了臥室的床上,並將杯子倒過來。然後,我再次拿起杯子,移到了主房間。現在,球在哪裡?
DeepSeek R1 的響應。
ChatGPT o1 的響應。
ChatGPT o1 Pro 的響應。
比拼結果:三個模型都能正確推理出:杯子倒扣時球會掉出並留在床上,即使杯子隨後被移動。這對具備物體恆存認知的人類來說不算驚豔,但在大語言模型領域,這種對物體物理狀態的「世界模型」理解能力,直到最近才真正突破。
DeepSeek R1 值得加分 —— 敏銳捕捉到「杯子無密封蓋」的關鍵前提(可能存在陷阱?思路清奇!)ChatGPT o1 也因為提到球可能從床上滾落到地板上(球確實容易這樣)而得到加分。
我們也被 R1 逗樂了,它堅持認為這個提示是「經典的注意力轉移」,因為「對杯子移動的關注轉移了人們對球所在位置的注意力」。我們強烈建議魔術師二人組潘恩與泰勒(Penn & Teller)在拉斯維加斯魔術表演中加入一個簡單的把戲 —— 把球放在床上 —— 也讓 AI 大模型驚歎一回。
勝者:本次測試三款模型並列冠軍 —— 畢竟,它們都成功追蹤到了球的蹤跡。
擂臺八:複數集合測試
試題 prompt:請提供一個包含 10 個自然數的列表,要求滿足:至少有一個是質數,至少 6 個是奇數,至少 2 個是 2 的冪次方,並且這 10 個數的總位數不少於 25 位。
DeepSeek R1 的響應。
ChatGPT o1 的響應。
ChatGPT o1 Pro 的響應。
比拼結果:儘管存在許多滿足條件的數列組合,這一提示語有效測試了大語言模型(LLMs)在遵循中等複雜度且易混淆指令時的抗干擾能力。三個模型均生成了有效回答,但方式不同,耐人尋味。
ChatGPT o1 生成的數列同樣滿足所有條件,但選擇 2^30(約 10.7 億)和 2^31(約 21.4 億)作為 2 的冪次方數略顯突兀(雖然技術正確,但直接列舉更小的 2 的冪次方如 4、8 等可能更直觀),未出現計算錯誤。
ChatGPT o1 Pro 生成的數列有效,但選擇質數 999,983 也令人頗感意外,策略偏向保守,同樣未出現計算錯誤。
然而,我們不得不對 DeepSeek R1 扣除較多分數,因其在生成 10 個滿足條件的自然數時,給出的數列雖然符合要求(包含至少 1 個質數、至少 6 個奇數、至少 2 個 2 的冪次方數,且總位數≥25),但在計算總位數時出現低階錯誤:模型聲稱數列共有 36 位,實際計算應為 33 位(如模型自述的位數累加結果「3+3+4+3+3+3+3+3+4+4」,正確總和應為 33)。儘管此次錯誤未直接影響結果有效性,但在更嚴格的場景下可能引發問題。
勝者:兩款 ChatGPT 模型勝出,因為沒有出現算術錯誤。
選個冠軍?難分高下!
雖然很想在這場 AI 大亂鬥裡評出個最終贏家,但測試結果實在有點「東邊日出西邊雨」。
DeepSeek-R1 確實有不少亮點時刻 —— 比如,查資料確認第十億個質數時展現了靠譜的學術素養,寫起老爸笑話和亞伯拉罕・林肯打籃球的創意故事也頗有靈氣。不過話說回來,遇到另類藏頭詩和複數集合題時它就有點露怯了,連最基礎的數數都會翻車,而這些恰恰是 OpenAI 模型沒犯的低階錯誤。
總體來看,這場快測的結果讓科技媒體 arstechnica 資深編輯感慨,DeepSeek-R1 的綜合實力完全能和 OpenAI 的付費「精英」掰手腕。這足以打臉那些認為「不燒個幾十億搞計算資源就別想挑戰行業巨頭」的刻板印象 —— 原來用對方法,價效比路線也能玩轉 AI 競技場!
原文連結:https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/