創造歷史!DeepSeek超越ChatGPT登頂中美AppStore

机器之心發表於2025-01-27

DeepSeek 20 日釋出以來獲得的熱度至今依然沒有任何消退的跡象。一覺醒來,DeepSeek 釋出的 iOS 應用甚至超越了 ChatGPT 的官方應用,直接登頂 AppStore。

圖片
不少網友都認為這是他們當之無愧。
圖片
畢竟,正如 a16z 合夥人、Mistral 董事會成員 Anjney Midha 說的那樣:從史丹佛到麻省理工,DeepSeek-R1 幾乎一夜之間就成了美國頂尖大學研究人員的首選模型。
圖片
甚至有網友認為 DeepSeek 是 OpenAI 與英偉達都未曾預見的黑天鵝。
圖片
與此同時,圍繞 DeepSeek-R1 的各路訊息也正層出不窮 ——Hugging Face 等組織正在嘗試復現 R1、DeepSeek 之前接受的採訪被翻譯成了英文版並正在 AI 社群引發熱議、開發了 Llama 系列模型的 Meta 似乎陷入了焦慮之中…… 下面我們就來簡單盤點一下最近兩天圍繞 DeepSeek 的幾個熱點議題。
圖片
DeepSeek 創始人梁文鋒之前接受的採訪被翻譯成了英文版,正在 AI 社群引發熱議

AI 社群開啟 R1 復現熱潮

DeepSeek-R1 是開源的,但也沒有完全開源 —— 相關的訓練資料、訓練指令碼等並未被公佈出來。不過,因為有技術報告,也就有了復現 R1 的指導方針,也因此,最近有不少人都在強調復現 R1 的重要性與可行性。
圖片
圖片
𝕏 博主 @Charbax 總結了 DeepSeek 文件中沒有介紹的地方以及復現 R1 的一些難點。

  • 訓練流程的細節。雖然其技術報告中介紹了強化學習階段和蒸餾,但省略了關鍵的實現細節,包括超引數(例如,學習率、批次大小、獎勵縮放因子)、用於生成合成訓練資料的資料管道(例如,如何編排 800K 蒸餾樣本)、需要人類偏好對齊的任務的獎勵模型架構(多語言輸出的「語言一致性獎勵」)。
  • 冷啟動資料生成。報告中雖然提到了建立「高質量冷啟動資料」(例如,人工標準、少樣本提示)的過程,但缺乏具體的示例或資料集。
  • 硬體和基礎設施。沒有關於計算資源(例如,GPU 叢集、訓練時間)或軟體堆疊最佳化(例如,DeepSeek-V3 的 AMD ROCM 整合)的詳細資訊。
  • 復現難題。缺少多階段強化學習的指令碼等元件。

當然,也確實有些團隊已經開始行動了。

Open R1:復現一個真・開源版 R1

在復現 R1 的各式專案中,最受人關注的當屬 Hugging Face 的 Open R1 專案。

  • 專案地址:https://github.com/huggingface/open-r1

Open R1 宣稱是 DeepSeek-R1 的「完全開放復現(A fully open reproduction)」,可以補齊 DeepSeek 沒有公開的技術細節。該專案目前還在進行中,已經完成的部分包括:

  • GRPO 實現
  • 訓練與評估程式碼
  • 用於合成資料的生成器
圖片
Hugging Face CEO Clem Delangue 的推文

據其專案介紹,Open R1 專案計劃分三步實施:
圖片
第一步:復現 R1-Distill 模型,具體做法是蒸餾一個來自 DeepSeek-R1 的高質量語料庫。

第二步:復現 DeepSeek 用於建立 R1-Zero 的純強化學習管線。這一步涉及到編排一個新的大規模資料集,其中包含數學、推理和程式碼資料。

第三步:透過多階段訓練從基礎模型得到強化學習微調版模型。

7B 模型 8K 樣本復現 R1-Zero 和 R1

另一個復現 R1 的團隊是來自香港科技大學的何俊賢(Junxian He)團隊,並且他們採用的基礎模型和樣本量都非常小:基於 7B 模型,僅使用 8K 樣本示例,但得到的結果卻「驚人地強勁」。

  • 專案地址:https://github.com/hkust-nlp/simpleRL-reason
圖片
需要注意,該團隊的這個實現的實驗大都是在 R1 釋出之前完成的。他們發現,僅使用 8K MATH 示例,7B 模型就能湧現出長思維鏈 (CoT)和自我反思能力,而且在複雜的數學推理上的表現也非常不錯。

具體來說,他們從基礎模型 Qwen2.5-Math-7B 開始,僅使用來自 MATH 資料集的 8K 樣本直接對其進行強化學習。最終得到了 Qwen2.5-SimpleRL-Zero 與 Qwen2.5-SimpleRL。

或者按其部落格的說法:「沒有獎勵模型,沒有 SFT,只有 8K 用於驗證的 Math 樣本,得到的模型在 AIME 上成績為(pass@1 準確率)33.3%、在 AMC 上實現了 62.5%、在 MATH 上實現 77.2%,優於 Qwen2.5-math-7B-instruct,可與使用多 50 倍資料和更復雜元件的 PRIME 和 rStar-MATH 相媲美。」
圖片
Qwen2.5-SimpleRL-Zero 的訓練動態
圖片
所得模型與基線模型的 pass@1 準確度

基於 3B 模型用 30 美元復現 R1

TinyZero 則是一個嘗試復現 DeepSeek-R1-Zero 的專案,據其作者、伯克利 AI 研究所在讀博士潘家怡(Jiayi Pan)介紹,該專案是基於 CountDown 遊戲實現的,完整配方有一句話就能說完:「遵照 DeepSeek R1-Zero 的演算法 —— 一個基礎語言模型、提示詞和 ground-truth 獎勵,然後執行強化學習。」
圖片
實驗過程中,模型一開始的輸出很蠢笨,但逐漸發展出修改和搜尋等策略。下面展示了一個示例,可以看到模型提出解決方案,自我驗證,並反覆修改,直到成功。
圖片
實驗中,該團隊也得到了一些有意思的發現:

基礎模型的質量很重要。0.5B 的小模型在猜測一個解答之後就會停止,而從 1.5B 規模開始,模型會開始學習搜尋、自我驗證、修正解答,從而可以得到遠遠更高的分數。

基礎模型和指令模型都可行。實驗發現,指令模型的學習速度更快,但效能會收斂到與基礎模型同等的程度;同時指令模型的輸出更加結構化、更可讀。

具體採用什麼強化學習演算法並不重要。該團隊嘗試了 PPO、GRPO 和 PRIME,但它們的差異並不大。

模型的推理行為嚴重取決於具體任務。對於 CountDown 遊戲,模型會學習執行搜尋和自我驗證;對於數值乘法,模型會學習使用分配律分解問題並逐步解決。
圖片
模型學會乘法分配律

而最驚人的是,整個專案的計算成本不到 30 美元。

Meta 的焦慮:下一代 Llama 可能趕不上 R1

數天前,機器之心報導文章《Meta 陷入恐慌?內部爆料:在瘋狂分析複製 DeepSeek,高預算難以解釋》引起廣泛關注與討論。

文章中, Meta 員工在美國匿名職場社群 teamblind 上面釋出了一個帖子提到,國內 AI 創業公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團隊陷入了恐慌。

今日,The Information 最新的文章爆料出更多內容。
圖片
在文章中,The Information 爆料稱包括 Meta 人工智慧基礎設施總監 Mathew Oldham 在內的領導表示,他們擔心 Meta Llama 的下一個版本效能不會像 DeepSeek 的那樣好。

Meta 也暗示 Llama 的下一個版本將於本季度釋出。

此外,文章也爆料,Meta 生成式 AI 小組和基礎設施團隊組織了四個作戰室來學習 DeepSeek 的工作原理。

其中兩個作戰室,正在試圖瞭解幻方是如何降低訓練和執行 DeepSeek 模型的成本。其中一名員工表示:Meta 希望將這些技術應用於 Llama。

其中一些開發人員透露,儘管 Meta 的模型是免費的,但它們的執行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以透過批次處理其模型客戶的數百萬條查詢來降低價格。但是,使用 Llama 的小型開發人員卻沒有足夠的查詢來降低成本。

據一位直接瞭解情況的員工透露,第三個作戰室正在試圖弄清楚幻方可能使用哪些資料來訓練其模型。

第四作戰室正在考慮基於 DeepSeek 模型的新技術,重構 Meta 模型。Meta 考慮推出一個與 DeepSeek 相似的 Llama 版本,它將包含多個 AI 模型,每個模型處理不同的任務。這樣,當客戶要求 Llama 處理某項任務時,只需要模型的某些部分進行處理。這樣做可以使整個模型執行得更快,並且以更少的算力來執行。

不知道,在這樣的壓力下,2025 年 Meta 會拿出什麼樣的開源模型?說不定,Meta 也會加入到復現 R1 的浪潮中。
圖片
不過可以預料的是,在 DeepSeek 這條鯰魚的攪動下,新一年的大模型格局正在發生轉變。

對新一年的 AI 技術發展與應用,你有什麼樣的期待?歡迎留言討論。

參考連結:
https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley

相關文章