物理測試暴擊AI圈，DeepSeek R1穩超o1、Claude，我們已進入RL黃金時代

机器之心發表於2025-01-25

原文網址 : https://www.jiqizhixin.com/articles/2025-01-25-4

我們都沒預料到，AI 領域的 2025 年是這樣開始的。

DeepSeek R1 真是太厲害了！

最近，「神秘的東方力量」DeepSeek 正在「硬控」矽谷。

^{我讓 R1 詳細解釋勾股定理。這一切都是 AI 在不到 30 秒時間裡一次性完成的，沒出任何錯。簡單來說，its over.}

在國內外 AI 圈，普通網友發現了神奇的強大新 AI（還開源），學界專家紛紛喊出「要奮起直追」，還有小道訊息稱海外的 AI 公司已經如臨大敵。

就說這個本週剛釋出的 DeepSeek R1，它沒有任何監督訓練的純強化學習路線令人震撼，從去年 12 月 Deepseek-v3 基座發展到如今堪比 OpenAI o1 的思維鏈能力，似乎是很快達成的事。

但在 AI 社群熱火朝天的讀技術報告、對比實測之餘，人們還是對 R1 有所懷疑：它除了能跑贏一堆 Benchmark 以外，真的能領先嗎？

能自建模擬「物理規律」

你不信？來讓大模型玩玩彈球？

最近幾天，AI 社群的一些人開始沉迷一項測試 —— 測試不同的 AI 大模型（尤其是所謂的推理模型）來處理一類問題：「編寫一個 Python 指令碼，讓一個黃色球在某個形狀內彈跳。讓該形狀緩慢旋轉，並確保球停留在形狀內。」

一些模型在這項「旋轉球形」基準測試中的表現優於其他模型。據 CoreView CTO Ivan Fioravanti 稱，國內人工智慧實驗室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式，後者作為 OpenAI ChatGPT Pro 計劃的一部分，每月收費 200 美元。

^{左邊是 OpenAI o1，右邊是 DeepSeek R1。如上所述，這裡的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」}

根據另一位網友在 X 上的說法，Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對物理原理判斷錯誤，導致球偏離了形狀。也有使用者報告稱，谷歌最新的 Gemini 2.0 Flash Thinking Experimental，以及相對更舊的 OpenAI GPT-4o 都一次性透過了評估。

但這裡面也是能分出高下的：

^{在這個推文底下的網友表示：o1 的能力原本很好，在 OpenAI 最佳化速度過後就變弱了，即使是每月 200 美元的會員版也一樣。}

模擬彈跳球是一個經典的程式設計挑戰。精確的模擬結合了碰撞檢測演算法，其演算法需要去識別兩個物體（例如一個球和一個形狀的側面）何時發生碰撞。編寫不當的演算法會影響模擬的效能或導致明顯的物理錯誤。

AI 初創公司 Nous Research 的研究員 N8 Programs 表示，他花了大約兩個小時從頭開始編寫一個旋轉七邊形中的彈跳球。「必須跟蹤多個座標系，瞭解每個系統中的碰撞是如何進行的，並從頭設計程式碼以使其具有魯棒性。」

雖然彈跳球和旋轉形狀是對程式設計技能的合理測試，但對於大模型來說還是個新專案，即使是提示中的細微變化也可能產生出不同的結果。所以如果想讓它最終成為 AI 大模型基準測試的一部分的話，還需要改進。

無論如何，經過這一波實測之後，我們對大模型之間的能力不同有了觀感。

DeepSeek 是新的「矽谷神話」

DeepSeek 正讓大洋彼岸陷入「恐慌」。

Meta 員工發帖稱「Meta 工程師們正在瘋狂地分析 DeepSeek，試圖從中複製任何可能的東西。」

而 AI 科技初創公司 Scale AI 創始人 Alexandr Wang 也公開表示，中國人工智慧公司 DeepSeek 的 AI 大模型效能大致與美國最好的模型相當。

他還認為，過去十年來，美國可能一直在人工智慧競賽中領先於中國，但 DeepSeek 的 AI 大模型釋出可能會「改變一切」。

X 博主 @8teAPi 則認為，DeepSeek 並不是一個「副業專案」，而是像洛克希德・馬丁以前的「臭鼬工廠」。

所謂「臭鼬工廠」，就是當初洛克希德・馬丁公司（Lockheed Martin）為了研發諸多先進飛行器專門成立的一個高度機密、相對獨立的小團隊，從事尖端或非常規的技術研究與開發。從 U-2 偵察機、SR-71 黑鳥，到 F-22 猛禽、F-35 閃電 II 戰鬥機都是從這裡走出來的。

後來，這個詞逐漸演變成一個通用術語，用來形容在大公司或組織內部設立的「小而精」、相對獨立且自由度更高的創新團隊。

他給出的理由有兩個：

一方面是 DeepSeek 擁有大量的 GPU，據稱有超過一萬塊，而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達到 5 萬塊。
另一方面，DeepSeek 只從中國排名前三的大學招聘人才，這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競爭力。

僅憑這兩個事實，就可以看出，顯然 DeepSeek 在商業上取得了成功，並且已經足夠知名，能夠獲得這些資源。

至於 DeepSeek 的開發成本，該博主表示，中國科技公司可以獲得各種各樣的補貼，比如低用電成本和用地。

因此，DeepSeek 非常有可能大部分成本都被「安置」在核心業務之外的某個賬目上，或者以某種資料中心建設補貼的形式存在。甚至除了創始人之外，沒人完全清楚所有財務安排。有些協議可能只是「口頭協定」，只靠聲譽就能敲定。

不管怎樣，有幾點是明確的：

這個模型非常出色，與 OpenAI 兩個月前釋出的版本相當，當然也有可能不如 OpenAI 和 Anthropic 尚未釋出的新模型。
從目前來看，研究方向仍主要由美國公司主導，DeepSeek 模型屬於對 o1 版本的「快速跟進」，但 DeepSeek 的研發進度非常迅猛，比預期更快地迎頭趕上，他們並沒有抄襲或作弊，最多隻是逆向工程。
DeepSeek 主要是在培養自己的人才，而不是依賴美國培養的博士，這大大擴充套件了人才庫。
與美國公司相比，DeepSeek 在智慧財產權許可、隱私、安全、政治等方面受到的約束較少，圍繞錯誤地使用那些不想被訓練的資料的擔憂也較少。訴訟更少，律師更少，也更少顧慮。

毫無疑問，越來越多的人認為 2025 年將會是決定性的一年。與此同時各家公司都在摩拳擦掌，比如 Meta 就正在建立一個 2GW+ 的資料中心，預計在 2025 年投資 600-650 億美元，年底擁有超過 130 萬塊 GPU。

Meta 甚至用一張圖表展示了 2 千兆瓦資料中心與紐約曼哈頓的對比。

但現在 DeepSeek 用更低的成本，更少的 GPU 做到了更好，怎能不讓人焦慮？

Yann LeCun：要感謝開源

Hyperbolic 的 CTO、聯合創始人 Yuchen Jin 發帖表示，在僅 4 天時間裡，DeepSeek-R1 向我們證明了 4 個事實：

開源 AI 僅落後於閉源 AI 不到 6 個月
中國正在主導開源 AI 競賽
我們正進入大語言模型強化學習的黃金時代
蒸餾模型非常強大，我們將在手機上執行高智慧 AI

由 DeepSeek 引發的連鎖反應仍在繼續，比如 OpenAI o3-mini 免費可用、社群中希望能減少關於 AGI/ASI 的模糊討論以及傳聞 Meta 陷入恐慌等。

他認為，現在很難預測最終誰會獲勝，但不要忘記後發優勢的力量，畢竟我們都知道是 Google 發明了 Transformer，而 OpenAI 解鎖了其真正潛力。

此外，圖靈獎得主、Meta 首席人工智慧科學家 Yann LeCun 也表達了自己的看法。

「對於那些看到 DeepSeek 的效能就認為『中國正在超越美國的 AI』的人，你理解錯了。正確的理解是：開源模型正在超越專有模型。」

LeCun 表示，DeepSeek 之所以這次一鳴驚人，是因為他們從開放研究和開源（如 Meta 的 PyTorch 和 Llama）中獲益。DeepSeek 提出了新想法，並在他人工作的基礎上構建。因為他們的工作是公開發布和開源的，每個人都可以從中受益，這就是開放研究和開源的力量。

網友們的反思還在繼續，在對於新技術發展興奮的同時，也能感受到一點點憂慮的氣氛，畢竟 DeepSeek 們的出現，可能會帶來真金白銀的影響。

^{參考內容：}

^{https://x.com/ivanfioravanti/status/1881969391547683031}

^{https://x.com/Aadhithya_D2003/status/1882105009548222953}

^{https://x.com/8teAPi/status/1882836551866204656}

^{https://x.com/Yuchenj_UW/status/1882840436974428362}

^{https://x.com/ylecun/status/1882943244679709130}

^{https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/}

我們將要進入數智化時代
2022-05-26
快餐行業進入“黃金時代”，左手天堂右手地獄
2022-03-17
行業
《黃金時代》總結
2021-01-10
超越Claude 3.5緊追o1！DeepSeek-V3-Base開源，程式設計能力暴增近31％
2024-12-26
程式設計
阿里雲們扎堆集結，資料庫黃金時代到了？
2023-02-02
阿里資料庫
我們正進入DeFi令牌新浪潮時代 -Aleks Larsen
2020-07-22
GPT-4時代已過？全球網友實測Claude 3，只有震撼
2024-03-05
GPT
衝擊DeepSeek R1，谷歌釋出新一代Gemini全型號刷榜，程式設計、物理模擬能力炸裂
2025-02-06
谷歌程式設計
時代在進步，我們也要跟著進步
2022-06-23
我們的時代
2024-11-12
「DeepSeek接班OpenAI」，最新開源的R1推理模型，讓AI圈爆了
2025-01-21
OpenAI模型
為什麼醫學影像AI已進入「後深度學習時代」？
2019-05-15
AI深度學習
【眼界】NLP 迎來了黃金時代
2019-12-07
世界黃金協會：全球已開採的黃金存量折算後超過20萬億美元
2024-09-26
AI時代，我們到底需要什麼樣的“大腦”
2019-05-21
AI
深度剖析遊戲直播的黃金時代
2020-09-01
遊戲
計算機架構新黃金時代
2019-02-01
計算機架構
無伺服器召喚師：我們已經進入了無伺服器超級計算機的時代 - David Wells
2020-06-14
伺服器計算機
DeepSeek R1有沒有趕上OpenAI o1？八大場景測評結果出爐
2025-01-30
OpenAI
翻到了我2016年的面試經歷，那是一個網際網路的黃金時代。
2024-12-05
面試
提起模糊測試時我們在說什麼
2020-08-19
他說，程式設計的黃金時代已到
2018-12-20
程式設計
Virtuos：影片遊戲重製的黃金時代
2024-11-21
遊戲
兄弟們現在已經是 AI 橫行的時代了有沒有什麼可以學習輔助測試的
2024-05-23
AI
剛剛，OpenAI上線Deep Research！人類終極考試遠超DeepSeek R1
2025-02-03
OpenAI
數字化時代企業人才進階在即，數字化人才培訓市場進入發展黃金期
2021-06-30
AI已進入谷歌圖片
2024-03-26
AI谷歌
AI已進入谷歌地圖
2024-03-25
AI谷歌地圖
Jetpack Compose 1.1 現已進入穩定版！
2022-03-02
Jetpack
職業教育：政策護航，黃金時代開啟
2021-12-01
測試已死，我看未必
2019-05-13
網易羅超：我們怎麼開發《冰汽時代》手遊？
2021-07-12
AI2想從常識測試開始讓AI理解物理世界，資料集已公佈
2018-03-15
AI
大資料時代，我們如此赤裸
2018-07-26
大資料
Claude 3被玩出自我意識了？AI社群轟動，我們買會員來了次實測
2024-03-06
AI
「情報局21」2019 AI 進入新算力時代
2019-01-08
AI
華為雲+AI，視訊分析全面進入智慧時代
2018-12-10
AI
進擊的WebRTC：我們為什麼需要它？
2018-07-04
Web

物理測試暴擊AI圈，DeepSeek R1穩超o1、Claude，我們已進入RL黃金時代

相關文章