華人研究團隊揭秘:DeepSeek-R1-Zero或許並不存在「頓悟時刻」

机器之心發表於2025-02-07

自我反思(尤其是膚淺的)有時對模型效能的助益不大。


在過去這半個月裡,關於 DeepSeek 的一切都會迅速成為焦點。

一項非常鼓舞人心的發現是:DeepSeek-R1-Zero 透過純強化學習(RL)實現了「頓悟」。在那個瞬間,模型學會了自我反思等湧現技能,幫助它進行上下文搜尋,從而解決複雜的推理問題。

在 R1-Zero 釋出後的短短几天內,連續幾個專案都在較小規模(如 1B 到 7B)上獨立「複製」了類似 R1-Zero 的訓練,並且都觀察到了「頓悟時刻」,這種時刻通常伴隨著響應長度的增加。
圖片
原文連結:https://oatllm.notion.site/oat-zero

最近,來自新加坡 Sea AI Lab 等機構的研究者再次梳理了類 R1-Zero 的訓練過程,並在一篇部落格中分享了三項重要發現:

1. 在類似 R1-Zero 的訓練中,可能並不存在「頓悟時刻」。相反,我們發現「頓悟時刻」(如自我反思模式)出現在 epoch 0,即基礎模型中。
2. 他們從基礎模型的響應中發現了膚淺的自我反思(SSR),在這種情況下,自我反思並不一定會導致正確的最終答案。
3. 仔細研究透過 RL 進行的類 R1-Zero 的訓練,發現響應長度增加的現象並不是因為出現了自我反思,而是 RL 最佳化設計良好的基於規則的獎勵函式的結果。

以下是部落格的內容:

Epoch 0 的頓悟時刻

實驗設定如下:

基礎模型。我們研究了由不同組織開發的各種基礎模型系列,包括 Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math 和 Llama-3.x。

提示模板。我們使用 R1-Zero 和 SimpleRL-Zero 中使用的模板直接提示基礎模型:
  • 模板 1(與 R1-Zero 相同)

圖片
  • 模板 2(與 SimpleRL-Zero 相同)

圖片
資料。我們從 MATH 訓練資料集中收集了 500 道題,這些題統一涵蓋了五個難度級別和所有科目,用於填充上述模板中的 {Question}。

生成引數。我們在 0.1 至 1.0 之間對探索引數(溫度)進行網格搜尋,以便對選定的問題進行模型推理。在所有實驗中,Top P 設定為 0.9。我們為每個問題生成 8 個回答。

經驗結果

我們首先嚐試了所有模型和提示模板(模板 1 或模板 2)的組合,然後根據每個模型的指令遵循能力為其選擇了最佳模板,並將其固定用於所有實驗。得出以下結論:

發現:「頓悟時刻」出現在 Epoch 0。我們觀察到,所有模型(除了 Llama-3.x 系列)在沒有任何後期訓練的情況下就已經表現出了自我反思模式。

我們在下表中列出了所有觀察到的表明自我反思模式的關鍵詞。請注意,該列表可能並不詳盡。這些關鍵詞都是經過人工驗證的,「等待」等詞被過濾掉了,因為它們的出現並不一定意味著自我反思,而可能是幻覺的結果。我們注意到,不同的模型會顯示與自我反思相關的不同關鍵詞,我們假設這是受其預訓練資料的影響。
圖片
圖 1a 展示了在不同基礎模型中引發自我反思行為的問題數量。結果表明,在不同的溫度下都能觀察到自我反思行為,其中一個趨勢是,溫度越高,在 epoch 0 出現「頓悟時刻」的頻率越高。

圖 1b 展示了不同自我反思關鍵詞的出現次數。我們可以觀察到,Qwen2.5 系列的基礎模型在產生自我反思行為方面最為活躍,這也部分解釋了為什麼大多數開源的 R1-Zero 復現都是基於 Qwen2.5 模型。
圖片
圖 1a. 在不同基礎模型中,500 道數學問題中引發自我反思行為的問題數量。圖 1b. 40,000 個回答中出現的關鍵詞數量(500 個問題 × 每個問題 8 個回答 × 10 個溫度)。

在確認「頓悟時刻」確實是在沒有任何訓練的情況下出現在 epoch 0 後,我們想知道它是否如我們所期望的那樣 —— 透過自我反思來糾正錯誤推理。因此,我們直接在 Qwen2.5-Math-7B 基礎模型上測試了 SimpleRL-Zero 部落格中使用的例題。令人驚訝的是,我們發現基礎模型已經表現出了合理的自我糾正行為,如圖 2 所示。
圖片
圖 2. 我們直接在 Qwen2.5-Math-7B 基本模型上測試了 SimpleRL-Zero 部落格中報告的同一問題,發現「頓悟時刻」已經出現。

膚淺的自我反思

儘管圖 2 中的示例顯示了基礎模型透過自我修正 CoT 直接解決複雜推理問題的巨大潛力,但我們發現並非所有來自基礎模型的自我反思都有效,也並不總能帶來更好的解決方案。為了便於討論,我們將它們稱為膚淺的自我反思(Superficial Self-Reflection,SSR)。

就其定義而言,膚淺的自我反思(SSR)是指模型響應中缺乏建設性修改或改進的重評估模式。與沒有自我反思的響應相比,SSR 不一定會帶來更好的答案。

案例研究

為了進一步瞭解 SSR,我們進行了案例研究,並觀察到 Qwen-2.5-Math-7B 基礎模型響應中的四種自我反思模式:
  • 行為 1:自我反思,反覆檢查以確認正確答案(圖 3a);

  • 行為 2:自我反思,糾正最初錯誤的想法(圖 3b 和圖 2);

  • 行為 3:自我反思,在原本正確的答案中引入錯誤(圖 3c);

  • 行為 4:反覆自我反思,但未能得出有效答案(圖 3d)。

其中, 行為 3 和行為 4 是膚淺的自我反思,導致最終答案不正確。
圖片
圖 3a:自我反思再三檢查答案,確保正確性。
圖片
圖 3b:自我反思糾正最初錯誤的答案。
圖片
圖 3c:自我反思在原本正確的答案(x=12)中引入錯誤(x=4)。
圖片
圖 3d:反覆自我反思卻無法提供有效的答案(無論正確或不正確)。

基礎模型容易出現 SSR

接下來,我們分析了 Qwen2.5-Math-1.5B 正確和錯誤答案中自我反思關鍵詞的出現情況。正如圖 4 所示,在不同的取樣溫度下,大多數自我反思(以頻率衡量)都沒有得到正確答案。這表明基礎模型容易產生膚淺的自我反思。
圖片
圖 4:正確和錯誤答案中的自我反思次數。藍色條表示正確答案中自我反思關鍵詞的總出現次數,而紅色條表示錯誤答案中自我反思關鍵詞的總出現次數。

深入探討類 R1-Zero 訓練

雖然模型響應長度的突然增加通常被視為類 R1-Zero 訓練中的頓悟時刻,但正如部落格 Section 1 中的研究結果表明:即使沒有 RL 訓練,這種頓悟時刻也可能發生。因此,這自然引出了一個問題:為什麼模型響應長度遵循一種獨特的模式,即在訓練初期減少,然後在某個點激增?

為了研究這一點,我們透過以下兩種方法來研究類 R1-Zero 訓練:
  • 在倒數計時(Countdown)任務上覆制 R1-Zero 以分析輸出長度動態;

  • 在數學問題上覆制 R1-Zero 以研究輸出長度與自我反思之間的關係。

長度變化是 RL 動態的一部分

我們使用了支援類 R1-Zero 訓練的 oat(一個研究友好的 LLM 線上對齊框架),以使用 GRPO 演算法在倒數計時任務(TinyZero 所用)上對 Qwen-2.5-3B 基礎模型進行 RL 調整。

在該任務中,模型被賦予三到四個數字,並被要求使用演算法運算(+、-、x、÷)來生成目標等式。這樣不可避免地需要模型重試不同的方案,因此需要自我反思行為。

圖 5 右顯示了整個 RL 訓練過程中獎勵和響應長度的動態。與 TinyZero 和 SimpleRL-Zero 類似,我們觀察到獎勵持續增加,而長度先減少然後激增,現有工作將此歸因於頓悟時刻。然而,我們觀察到重試模式已經存在於基礎模型的響應中(Section 1),但其中許多都是膚淺的(Section 2 ),因此獎勵很低。
圖片
圖 5(左)為不同響應組的分佈和平均長度的詳細分析;(右)為測試獎勵和模型響應長度的 RL 曲線。

在初始學習階段,我們分析了基於規則的獎勵塑造對 RL 動態和響應長度變化的影響。圖 5(左)根據獎勵將模型響應分為了三個不同的組:
圖片
這種簡單的分解揭示了一些關於 RL 動態的見解:
  • 在 88 步之前的訓練以塑造獎勵 (r=0.1) 為主,透過調整模型使其在生成 token 預算內停止並在 <answer> </answer > 塊內格式化答案,從而可以更輕鬆地進行最佳化。在此期間,冗長的錯誤響應受到抑制,平均響應長度急劇下降。

  • 在第 88 步,模型開始透過輸出更多重試(retries)來「爬上獎勵山」,朝著更高的獎勵(r=1 表示正確性)攀登。因此,我們觀察到正確響應的長度增加。伴隨而來的副作用是,模型輸出更多冗長的膚淺自我反思,導致平均響應長度激增。

  • 整個 RL 過程是將原本膚淺的自我反思轉變為有效的自我反思,以最大化預期獎勵,從而提高推理能力。


輸出長度和自我反思可能並不相關

按照 SimpleRL-Zero 的設定,我們使用 8K MATH 提示訓練 Qwen2.5-Math-1.5B。在訓練開始時,我們觀察到輸出長度減少,直到大約 1700 個梯度步,長度才開始增加(圖 6)。然而,自我反思關鍵詞的總數並沒有表現出圖 7 所示的與輸出長度的單調關係。這表明單憑輸出長度可能不是模型自我反思能力的可靠指標。
圖片
圖 6:使用 8K MATH 提示的 Qwen2.5-Math-1.5B 訓練動態。我們報告了 MATH500 上的測試準確率和平均響應長度。
圖片
圖 7:訓練期間自我反思關鍵詞的總數。

在我們使用的單節點伺服器上,完整訓練過程大約需要 14 天,目前仍在進行中(進度相當於 SimpleRL-Zero 中的 48 個訓練步)。我們將在完成後提供更詳細的分析。

相關文章