華人研究團隊揭秘：DeepSeek-R1-Zero或許並不存在「頓悟時刻」

机器之心發表於2025-02-07

原文網址 : https://www.jiqizhixin.com/articles/2025-02-07-8

自我反思（尤其是膚淺的）有時對模型效能的助益不大。

在過去這半個月裡，關於 DeepSeek 的一切都會迅速成為焦點。

一項非常鼓舞人心的發現是：DeepSeek-R1-Zero 透過純強化學習（RL）實現了「頓悟」。在那個瞬間，模型學會了自我反思等湧現技能，幫助它進行上下文搜尋，從而解決複雜的推理問題。

在 R1-Zero 釋出後的短短几天內，連續幾個專案都在較小規模（如 1B 到 7B）上獨立「複製」了類似 R1-Zero 的訓練，並且都觀察到了「頓悟時刻」，這種時刻通常伴隨著響應長度的增加。

原文連結：https://oatllm.notion.site/oat-zero

最近，來自新加坡 Sea AI Lab 等機構的研究者再次梳理了類 R1-Zero 的訓練過程，並在一篇部落格中分享了三項重要發現：

1. 在類似 R1-Zero 的訓練中，可能並不存在「頓悟時刻」。相反，我們發現「頓悟時刻」（如自我反思模式）出現在 epoch 0，即基礎模型中。

2. 他們從基礎模型的響應中發現了膚淺的自我反思（SSR），在這種情況下，自我反思並不一定會導致正確的最終答案。

3. 仔細研究透過 RL 進行的類 R1-Zero 的訓練，發現響應長度增加的現象並不是因為出現了自我反思，而是 RL 最佳化設計良好的基於規則的獎勵函式的結果。

以下是部落格的內容：

Epoch 0 的頓悟時刻

實驗設定如下：

基礎模型。我們研究了由不同組織開發的各種基礎模型系列，包括 Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math 和 Llama-3.x。

提示模板。我們使用 R1-Zero 和 SimpleRL-Zero 中使用的模板直接提示基礎模型：

模板 1（與 R1-Zero 相同）

模板 2（與 SimpleRL-Zero 相同）

資料。我們從 MATH 訓練資料集中收集了 500 道題，這些題統一涵蓋了五個難度級別和所有科目，用於填充上述模板中的 {Question}。

生成引數。我們在 0.1 至 1.0 之間對探索引數（溫度）進行網格搜尋，以便對選定的問題進行模型推理。在所有實驗中，Top P 設定為 0.9。我們為每個問題生成 8 個回答。

經驗結果

我們首先嚐試了所有模型和提示模板（模板 1 或模板 2）的組合，然後根據每個模型的指令遵循能力為其選擇了最佳模板，並將其固定用於所有實驗。得出以下結論：

發現：「頓悟時刻」出現在 Epoch 0。我們觀察到，所有模型（除了 Llama-3.x 系列）在沒有任何後期訓練的情況下就已經表現出了自我反思模式。

我們在下表中列出了所有觀察到的表明自我反思模式的關鍵詞。請注意，該列表可能並不詳盡。這些關鍵詞都是經過人工驗證的，「等待」等詞被過濾掉了，因為它們的出現並不一定意味著自我反思，而可能是幻覺的結果。我們注意到，不同的模型會顯示與自我反思相關的不同關鍵詞，我們假設這是受其預訓練資料的影響。

圖 1a 展示了在不同基礎模型中引發自我反思行為的問題數量。結果表明，在不同的溫度下都能觀察到自我反思行為，其中一個趨勢是，溫度越高，在 epoch 0 出現「頓悟時刻」的頻率越高。

圖 1b 展示了不同自我反思關鍵詞的出現次數。我們可以觀察到，Qwen2.5 系列的基礎模型在產生自我反思行為方面最為活躍，這也部分解釋了為什麼大多數開源的 R1-Zero 復現都是基於 Qwen2.5 模型。

^{圖 1a. 在不同基礎模型中，500 道數學問題中引發自我反思行為的問題數量。圖 1b. 40,000 個回答中出現的關鍵詞數量（500 個問題 × 每個問題 8 個回答 × 10 個溫度）。}

在確認「頓悟時刻」確實是在沒有任何訓練的情況下出現在 epoch 0 後，我們想知道它是否如我們所期望的那樣 —— 透過自我反思來糾正錯誤推理。因此，我們直接在 Qwen2.5-Math-7B 基礎模型上測試了 SimpleRL-Zero 部落格中使用的例題。令人驚訝的是，我們發現基礎模型已經表現出了合理的自我糾正行為，如圖 2 所示。

^{圖 2. 我們直接在 Qwen2.5-Math-7B 基本模型上測試了 SimpleRL-Zero 部落格中報告的同一問題，發現「頓悟時刻」已經出現。}

膚淺的自我反思

儘管圖 2 中的示例顯示了基礎模型透過自我修正 CoT 直接解決複雜推理問題的巨大潛力，但我們發現並非所有來自基礎模型的自我反思都有效，也並不總能帶來更好的解決方案。為了便於討論，我們將它們稱為膚淺的自我反思（Superficial Self-Reflection，SSR）。

就其定義而言，膚淺的自我反思（SSR）是指模型響應中缺乏建設性修改或改進的重評估模式。與沒有自我反思的響應相比，SSR 不一定會帶來更好的答案。

案例研究

為了進一步瞭解 SSR，我們進行了案例研究，並觀察到 Qwen-2.5-Math-7B 基礎模型響應中的四種自我反思模式：

行為 1：自我反思，反覆檢查以確認正確答案（圖 3a）；
行為 2：自我反思，糾正最初錯誤的想法（圖 3b 和圖 2）；
行為 3：自我反思，在原本正確的答案中引入錯誤（圖 3c）；
行為 4：反覆自我反思，但未能得出有效答案（圖 3d）。

其中，行為 3 和行為 4 是膚淺的自我反思，導致最終答案不正確。

^{圖 3a：自我反思再三檢查答案，確保正確性。}

^{圖 3b：自我反思糾正最初錯誤的答案。}

^{圖 3c：自我反思在原本正確的答案（x=12）中引入錯誤（x=4）。}

^{圖 3d：反覆自我反思卻無法提供有效的答案（無論正確或不正確）。}

基礎模型容易出現 SSR

接下來，我們分析了 Qwen2.5-Math-1.5B 正確和錯誤答案中自我反思關鍵詞的出現情況。正如圖 4 所示，在不同的取樣溫度下，大多數自我反思（以頻率衡量）都沒有得到正確答案。這表明基礎模型容易產生膚淺的自我反思。

^{圖 4：正確和錯誤答案中的自我反思次數。藍色條表示正確答案中自我反思關鍵詞的總出現次數，而紅色條表示錯誤答案中自我反思關鍵詞的總出現次數。}

深入探討類 R1-Zero 訓練

雖然模型響應長度的突然增加通常被視為類 R1-Zero 訓練中的頓悟時刻，但正如部落格 Section 1 中的研究結果表明：即使沒有 RL 訓練，這種頓悟時刻也可能發生。因此，這自然引出了一個問題：為什麼模型響應長度遵循一種獨特的模式，即在訓練初期減少，然後在某個點激增？

為了研究這一點，我們透過以下兩種方法來研究類 R1-Zero 訓練：

在倒數計時（Countdown）任務上覆制 R1-Zero 以分析輸出長度動態；
在數學問題上覆制 R1-Zero 以研究輸出長度與自我反思之間的關係。

長度變化是 RL 動態的一部分

我們使用了支援類 R1-Zero 訓練的 oat（一個研究友好的 LLM 線上對齊框架），以使用 GRPO 演算法在倒數計時任務（TinyZero 所用）上對 Qwen-2.5-3B 基礎模型進行 RL 調整。

在該任務中，模型被賦予三到四個數字，並被要求使用演算法運算（+、-、x、÷）來生成目標等式。這樣不可避免地需要模型重試不同的方案，因此需要自我反思行為。

圖 5 右顯示了整個 RL 訓練過程中獎勵和響應長度的動態。與 TinyZero 和 SimpleRL-Zero 類似，我們觀察到獎勵持續增加，而長度先減少然後激增，現有工作將此歸因於頓悟時刻。然而，我們觀察到重試模式已經存在於基礎模型的響應中（Section 1），但其中許多都是膚淺的（Section 2 ），因此獎勵很低。

^{圖 5（左）為不同響應組的分佈和平均長度的詳細分析；（右）為測試獎勵和模型響應長度的 RL 曲線。}

在初始學習階段，我們分析了基於規則的獎勵塑造對 RL 動態和響應長度變化的影響。圖 5（左）根據獎勵將模型響應分為了三個不同的組：

這種簡單的分解揭示了一些關於 RL 動態的見解：

在 88 步之前的訓練以塑造獎勵 (r=0.1) 為主，透過調整模型使其在生成 token 預算內停止並在 <answer> </answer > 塊內格式化答案，從而可以更輕鬆地進行最佳化。在此期間，冗長的錯誤響應受到抑制，平均響應長度急劇下降。
在第 88 步，模型開始透過輸出更多重試（retries）來「爬上獎勵山」，朝著更高的獎勵（r=1 表示正確性）攀登。因此，我們觀察到正確響應的長度增加。伴隨而來的副作用是，模型輸出更多冗長的膚淺自我反思，導致平均響應長度激增。
整個 RL 過程是將原本膚淺的自我反思轉變為有效的自我反思，以最大化預期獎勵，從而提高推理能力。

輸出長度和自我反思可能並不相關

按照 SimpleRL-Zero 的設定，我們使用 8K MATH 提示訓練 Qwen2.5-Math-1.5B。在訓練開始時，我們觀察到輸出長度減少，直到大約 1700 個梯度步，長度才開始增加（圖 6）。然而，自我反思關鍵詞的總數並沒有表現出圖 7 所示的與輸出長度的單調關係。這表明單憑輸出長度可能不是模型自我反思能力的可靠指標。

^{圖 6：使用 8K MATH 提示的 Qwen2.5-Math-1.5B 訓練動態。我們報告了 MATH500 上的測試準確率和平均響應長度。}

^{圖 7：訓練期間自我反思關鍵詞的總數。}

在我們使用的單節點伺服器上，完整訓練過程大約需要 14 天，目前仍在進行中（進度相當於 SimpleRL-Zero 中的 48 個訓練步）。我們將在完成後提供更詳細的分析。

聊聊刷題中的頓悟時刻
2021-10-20
機器人邁向ChatGPT時刻！清華團隊首次發現具身智慧Scaling Laws
2024-11-01
機器人ChatGPT
Vue 的使用心得，也許你也能頓悟
2018-06-22
Vue
西湖大學「新冠」研究登上Science封面，揭秘病毒進入人體那一刻
2020-03-27
里程碑時刻！David Baker 團隊利用 AI 從頭設計抗體
2024-03-20
AI
傳統文化研究團隊------軟體工程團隊專案
2020-12-26
軟體工程
那些讓你頓悟的瞬間
2021-01-05
ICML 2024 Oral | DPO是否比PPO更適合LLM，清華吳翼團隊最新揭秘
2024-07-22
全球“萬人迷”MySQL或許並沒有想象中的那麼“香”
2022-07-04
MySql
OAM 創始團隊：揭秘 OAM Kubernetes 實現核心原理
2020-06-28
360 度評估大揭秘：團隊報告深度解析
2024-11-27
華盛頓大學：研究發現長時間玩手機易得老年痴呆
2022-05-13
團隊管理、團隊人員技術培養的思考和交流
2021-09-08
華為“引商”，VR“刻羽”，共覓知音人
2021-04-17
VR
歷時2年，華人團隊力作，震撼開源生成式物理引擎Genesis，可模擬世界萬物
2024-12-19
“DeepSeek時刻”或致英偉達狂跌一年
2025-02-01
LeCun贊轉！類Sora模型能否理解物理規律？位元組豆包大模型團隊系統性研究揭秘
2024-11-08
LeCunSora大模型
個人分工04——團隊衝刺
2024-04-26
李飛飛團隊「具身智慧」最新研究：機器人接手所有家務
2025-03-11
機器人
“資料科學家”或許不再性感，但“資料團隊”的產業化才剛開始
2020-07-09
資料科學產業
SkyReach 團隊團隊展示
2019-03-18
華盛頓大學：研究發現多措並舉可讓Twitter錯誤資訊減少53.4%
2022-07-01
對控制反轉和依賴注入的突然頓悟
2021-06-24
依賴注入
DeepSeek秘訣：能在學習過程中突然頓悟！
2025-01-26
或許你並不需要重寫 init(from:) 方法
2019-03-01
關於個人規劃和團隊
2024-05-13
中小團隊的技術負責人如何做好技術團隊建設
2022-04-07
港大黃超團隊推出AnyGraph, 首次揭秘圖大模型的Scaling Law
2024-08-29
大模型
知識庫軟體對比：10款適合團隊的工具揭秘
2024-09-08
楊晨華|華昂集團創始人，華昂研究院院長揭幕CDIE中國數字化盛宴
2020-07-28
LocalDateTime獲取今天最早時刻和最晚時刻
2024-09-12
LDA
如何管理好團隊的工時表？
2023-05-17
技術團隊管理筆記(二)-帶人
2019-01-06
筆記
技術團隊管理筆記(一)-識人
2018-12-31
筆記
復刻或重製老遊戲，可能並沒有想象中那麼簡單
2019-11-19
遊戲
Nature重磅：微軟潘海峰華盛頓大學王晟團隊釋出首個全切片數字病理學模型GigaPath
2024-06-03
微軟模型
微軟研究團隊使用遷移學習，訓練現實世界中的無人機
2020-03-29
微軟遷移學習無人機
一次線上事故，我頓悟了非同步的精髓
2022-07-11
非同步

華人研究團隊揭秘：DeepSeek-R1-Zero或許並不存在「頓悟時刻」

相關文章