物理測試暴擊AI圈,DeepSeek R1穩超o1、Claude,我們已進入RL黃金時代

机器之心發表於2025-01-25
我們都沒預料到,AI 領域的 2025 年是這樣開始的。
DeepSeek R1 真是太厲害了!

最近,「神秘的東方力量」DeepSeek 正在「硬控」矽谷。
圖片
我讓 R1 詳細解釋勾股定理。這一切都是 AI 在不到 30 秒時間裡一次性完成的,沒出任何錯。簡單來說,its over.

在國內外 AI 圈,普通網友發現了神奇的強大新 AI(還開源),學界專家紛紛喊出「要奮起直追」,還有小道訊息稱海外的 AI 公司已經如臨大敵。

就說這個本週剛釋出的 DeepSeek R1,它沒有任何監督訓練的純強化學習路線令人震撼,從去年 12 月 Deepseek-v3 基座發展到如今堪比 OpenAI o1 的思維鏈能力,似乎是很快達成的事。

但在 AI 社群熱火朝天的讀技術報告、對比實測之餘,人們還是對 R1 有所懷疑:它除了能跑贏一堆 Benchmark 以外,真的能領先嗎?

能自建模擬「物理規律」

你不信?來讓大模型玩玩彈球?

最近幾天,AI 社群的一些人開始沉迷一項測試 —— 測試不同的 AI 大模型(尤其是所謂的推理模型)來處理一類問題:「編寫一個 Python 指令碼,讓一個黃色球在某個形狀內彈跳。讓該形狀緩慢旋轉,並確保球停留在形狀內。」

一些模型在這項「旋轉球形」基準測試中的表現優於其他模型。據 CoreView CTO Ivan Fioravanti 稱,國內人工智慧實驗室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式,後者作為 OpenAI ChatGPT Pro 計劃的一部分,每月收費 200 美元。
圖片
左邊是 OpenAI o1,右邊是 DeepSeek R1。如上所述,這裡的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根據另一位網友在 X 上的說法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對物理原理判斷錯誤,導致球偏離了形狀。也有使用者報告稱,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相對更舊的 OpenAI GPT-4o 都一次性透過了評估。

但這裡面也是能分出高下的:
圖片
在這個推文底下的網友表示:o1 的能力原本很好,在 OpenAI 最佳化速度過後就變弱了,即使是每月 200 美元的會員版也一樣。

模擬彈跳球是一個經典的程式設計挑戰。精確的模擬結合了碰撞檢測演算法,其演算法需要去識別兩個物體(例如一個球和一個形狀的側面)何時發生碰撞。編寫不當的演算法會影響模擬的效能或導致明顯的物理錯誤。

AI 初創公司 Nous Research 的研究員 N8 Programs 表示,他花了大約兩個小時從頭開始編寫一個旋轉七邊形中的彈跳球。「必須跟蹤多個座標系,瞭解每個系統中的碰撞是如何進行的,並從頭設計程式碼以使其具有魯棒性。」

雖然彈跳球和旋轉形狀是對程式設計技能的合理測試,但對於大模型來說還是個新專案,即使是提示中的細微變化也可能產生出不同的結果。所以如果想讓它最終成為 AI 大模型基準測試的一部分的話,還需要改進。

無論如何,經過這一波實測之後,我們對大模型之間的能力不同有了觀感。

DeepSeek 是新的「矽谷神話」

DeepSeek 正讓大洋彼岸陷入「恐慌」。
圖片
Meta 員工發帖稱「Meta 工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。」

而 AI 科技初創公司 Scale AI 創始人 Alexandr Wang 也公開表示,中國人工智慧公司 DeepSeek 的 AI 大模型效能大致與美國最好的模型相當。

他還認為,過去十年來,美國可能一直在人工智慧競賽中領先於中國,但 DeepSeek 的 AI 大模型釋出可能會「改變一切」。

X 博主 @8teAPi 則認為,DeepSeek 並不是一個「副業專案」,而是像洛克希德・馬丁以前的「臭鼬工廠」。

所謂「臭鼬工廠」,就是當初洛克希德・馬丁公司(Lockheed Martin)為了研發諸多先進飛行器專門成立的一個高度機密、相對獨立的小團隊,從事尖端或非常規的技術研究與開發。從 U-2 偵察機、SR-71 黑鳥,到 F-22 猛禽、F-35 閃電 II 戰鬥機都是從這裡走出來的。

後來,這個詞逐漸演變成一個通用術語,用來形容在大公司或組織內部設立的「小而精」、相對獨立且自由度更高的創新團隊。

他給出的理由有兩個:

  • 一方面是 DeepSeek 擁有大量的 GPU,據稱有超過一萬塊,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達到 5 萬塊。
  • 另一方面,DeepSeek 只從中國排名前三的大學招聘人才,這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競爭力。

僅憑這兩個事實,就可以看出,顯然 DeepSeek 在商業上取得了成功,並且已經足夠知名,能夠獲得這些資源。
圖片
至於 DeepSeek 的開發成本,該博主表示,中國科技公司可以獲得各種各樣的補貼,比如低用電成本和用地。

因此,DeepSeek 非常有可能大部分成本都被「安置」在核心業務之外的某個賬目上,或者以某種資料中心建設補貼的形式存在。甚至除了創始人之外,沒人完全清楚所有財務安排。有些協議可能只是「口頭協定」,只靠聲譽就能敲定。

不管怎樣,有幾點是明確的:

  • 這個模型非常出色,與 OpenAI 兩個月前釋出的版本相當,當然也有可能不如 OpenAI 和 Anthropic 尚未釋出的新模型。
  • 從目前來看,研究方向仍主要由美國公司主導,DeepSeek 模型屬於對 o1 版本的「快速跟進」,但 DeepSeek 的研發進度非常迅猛,比預期更快地迎頭趕上,他們並沒有抄襲或作弊,最多隻是逆向工程。
  • DeepSeek 主要是在培養自己的人才,而不是依賴美國培養的博士,這大大擴充套件了人才庫。
  • 與美國公司相比,DeepSeek 在智慧財產權許可、隱私、安全、政治等方面受到的約束較少,圍繞錯誤地使用那些不想被訓練的資料的擔憂也較少。訴訟更少,律師更少,也更少顧慮。
圖片
毫無疑問,越來越多的人認為 2025 年將會是決定性的一年。與此同時各家公司都在摩拳擦掌,比如 Meta 就正在建立一個 2GW+ 的資料中心,預計在 2025 年投資 600-650 億美元,年底擁有超過 130 萬塊 GPU。

Meta 甚至用一張圖表展示了 2 千兆瓦資料中心與紐約曼哈頓的對比。
圖片
但現在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不讓人焦慮?

Yann LeCun:要感謝開源

Hyperbolic 的 CTO、聯合創始人 Yuchen Jin 發帖表示,在僅 4 天時間裡,DeepSeek-R1 向我們證明了 4 個事實:

  • 開源 AI 僅落後於閉源 AI 不到 6 個月
  • 中國正在主導開源 AI 競賽
  • 我們正進入大語言模型強化學習的黃金時代
  • 蒸餾模型非常強大,我們將在手機上執行高智慧 AI
圖片
由 DeepSeek 引發的連鎖反應仍在繼續,比如 OpenAI o3-mini 免費可用、社群中希望能減少關於 AGI/ASI 的模糊討論以及傳聞 Meta 陷入恐慌等。

他認為,現在很難預測最終誰會獲勝,但不要忘記後發優勢的力量,畢竟我們都知道是 Google 發明了 Transformer,而 OpenAI 解鎖了其真正潛力。

此外,圖靈獎得主、Meta 首席人工智慧科學家 Yann LeCun 也表達了自己的看法。

「對於那些看到 DeepSeek 的效能就認為『中國正在超越美國的 AI』的人,你理解錯了。正確的理解是:開源模型正在超越專有模型。」

LeCun 表示,DeepSeek 之所以這次一鳴驚人,是因為他們從開放研究和開源(如 Meta 的 PyTorch 和 Llama)中獲益。DeepSeek 提出了新想法,並在他人工作的基礎上構建。因為他們的工作是公開發布和開源的,每個人都可以從中受益,這就是開放研究和開源的力量。
圖片
網友們的反思還在繼續,在對於新技術發展興奮的同時,也能感受到一點點憂慮的氣氛,畢竟 DeepSeek 們的出現,可能會帶來真金白銀的影響。

參考內容:
https://x.com/ivanfioravanti/status/1881969391547683031
https://x.com/Aadhithya_D2003/status/1882105009548222953
https://x.com/8teAPi/status/1882836551866204656
https://x.com/Yuchenj_UW/status/1882840436974428362
https://x.com/ylecun/status/1882943244679709130
https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/

相關文章