超越DeepSeek-R1關鍵RL演算法GRPO,CMU「元強化微調」新正規化登場

机器之心發表於2025-03-13
大語言模型(LLM)在推理領域的最新成果表明了透過擴充套件測試時計算來提高推理能力的潛力,比如 OpenAI 的 o1 系列。

通常來說,這些方法在訓練模型時可以產生比典型正確解決方案更長的軌跡,幷包含了試圖實現某些「演算法」的 token:例如反思前一個答案、規劃或實現某種形式的線性搜尋。這些方法包括顯式地微調預訓練 LLM 以適應演算法行為,例如對搜尋資料進行監督微調(SFT)或針對 0/1 正確性獎勵執行結果獎勵(outcome-reward,OR)RL。

雖然透過「結果獎勵 RL 生成長推理鏈」的方式來訓練模型消耗測試時計算的前景看好,但為了繼續從擴充套件測試時計算中獲得收益,我們最終需要回答一些關鍵的理解和方法設計問題。

第一個問題:當前的 LLM 是否高效使用了測試時間計算?也就是說,它們是否消耗了與典型解決方案長度大致相當的 token,或者它們是否在簡單的問題上使用了太多 token?

第二個問題:當執行測試時 token 預算遠大於用於訓練的 token 預算時,LLM 是否能夠「發現」用於更難問題的解決方案?最終,我們希望模型能夠從它們生成的每個 token(或任何語義上有意義的片段)中獲得足夠的效用,這不僅是為了提高效率,還因為這樣做可以形成一個系統化的流程來發現更難、分佈外問題的解決方案。

在本文中,CMU、HuggingFace 的研究者提出從元強化學習(RL)的視角來形式化上述最佳化測試時計算的挑戰。
image.png
  • 論文標題:Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

  • 論文地址:https://arxiv.org/pdf/2503.07572

  • 專案主頁:https://cohenqu.github.io/mrt.github.io/

在構建方法的過程中,研究者在給定問題上將 LLM 的輸出流分割成多個片段(圖 2)。如果我們只關心效率,那麼 LLM 應該只學習利用並直接輸出最終答案,而無需耗費太多片段。另一方面,如果 LLM 僅專注於發現(discovery),那麼探索就更可取,這樣 LLM 就可以耗費幾個片段來嘗試不同的方法,並進行驗證和修改,然後得出最終答案。

從根本上說,這與傳統的 RL 不同,這裡的目標是學習一個可以在每個測試問題上實現探索 - 利用演算法的 LLM。換句話說,本文的目標是從訓練資料中學習這樣的演算法,使其成為一個「元」RL 學習問題。
SCR-20250312-mzdt_副本.jpg
理想的「元」行為是在過早採用一種方法(即「利用」片段)和嘗試過多高風險策略(即「探索」片段)之間取得平衡的行為。從元 RL 文獻中,我們知道探索和利用的最佳權衡相當於最小化輸出 token 預算的累積悔值。這種悔值衡量了 LLM 與一個 oracle 比較器成功可能性之間的累積差異,如圖 1 (b) 中的紅色陰影區域所示。
image.png
透過訓練 LLM 來最小化每個查詢的累積悔值,本文學習了一種在某種程度上與測試時預算無關的策略,即在部署時 LLM 僅耗費必要數量的 token,同時在更大的 token 預算下執行時仍會取得進展。

具體地,研究者利用一類新的微調方法來最佳化測試時計算,透過最小化累積悔值的概念產生了一種被稱為元強化微調(Meta Reinforcement Fine-Tuning,MRT)的解決方案(或正規化),從而為評估現有推理模型(如 Deepseek-R1)在使用測試時計算的有效性提供了一個指標。

研究者發現,使用結果獎勵 RL 進行微調的 SOTA LLM 無法透過更多片段來提高發現正確答案的機率,即它們沒有取得穩定的「進展」(如上圖 1 (a) 所示),即使這種行為對於發現未見過難題的解決方案至關重要。事實上,在 FLOPs 匹配的評估中,執行更少片段並結合多數投票的更簡單方法通常對較難的問題更有效(下圖 3)。
SCR-20250312-olro_副本.jpg
相反,研究者表明,當目標是最小化悔值時,除了結果獎勵之外,對進展的最佳化也會自然而然出現。本文的微調正規化 MRT 為 RL 訓練規定了密集的獎勵(reward bonus)。直觀地說,這一進展獎勵衡量了在生成給定片段之前和之後獲得正確答案的似然的變化。

在實驗部分,研究者在兩種設定下對 MRT 進行了評估,二者的不同之處在於它們對片段進行引數化的方式。對於第一種設定,他們對基礎模型進行微調,包括 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeekR1-Distill-Qwen-7B,並採用了數學推理問題資料集。

結果發現,MRT 的表現始終優於結果獎勵強化學習,在多個基準測試(AIME 2024、AIME 2025、AMC 2023 等)上取得了 15 億引數規模的 SOTA 結果,其相較於基礎模型的準確率提升是標準結果獎勵 RL(GRPO)的約 2-3 倍,而 token 效率是 GRPO 的 1.5 倍、是基礎模型的 5 倍。GRPO 是 DeepSeek-R1 的關鍵強化學習演算法。

對於第二種設定,研究者對 Llama 3.1 進行微調以實現回溯,結果表明,MRT 相較於 STaR 和 GRPO 均實現了 1.6-1.7 倍的 token 效率提升。

元強化微調(MRT)正規化

MRT 的目標是直接學習一種與預算無關(budget-agnostic)的 LLM,使其能夠穩步取得進展。
image.png
該研究使用線上強化學習方法(如 GRPO)實現元強化學習正規化。下面是它的工作原理:

該研究定義了一個元證明器策略(Meta-Prover Policy)μ,用於評估一個片段對解決問題的貢獻程度。該策略的工作方式如下:
  • 強制終止當前的思考塊(thought block),使用「time is up」提示(prompt);

  • 讓模型根據當前的推理字首(reasoning prefix)生成其最佳猜測的解決方案。

對於推理過程中的每一個片段,需要這樣操作:
  • 使用元證明器策略 μ 計算思維字首的獎勵;

  • 基於這個字首取樣多個策略內的軌跡(rollouts),這些軌跡被均勻分配為:繼續進一步推理;終止思考軌跡並生成最佳猜測的解決方案;

  • 根據對進展(progress)的獎勵,然後計算進展獎勵。

在訓練過程中,該研究最佳化了包含標準結果獎勵和基於進展的密集獎勵獎勵的 MRT 目標函式:
image.png
實驗結果

實驗評估了 MRT 在最佳化「測試時計算」資源方面的有效性。

如表 1 所示,MRT 的表現優於在相同資料集上未使用密集獎勵訓練的模型。
image.png
此外,該研究還得出了以下結論:
  • 基於 DeepScaleR-1.5B-Preview 基礎模型微調的模型達到了其規模下 SOTA 水平。由於模型在經過蒸餾或已經經過強化學習(RL)訓練的基礎模型上進行了訓練,因此絕對效能提升較小。然而,與基於結果獎勵的 RL 方法(如 GRPO)相比,使用 MRT 的相對效能提升約為 2-3 倍。

  • 當使用 DeepScaleR-1.5B 模型在 AIME 問題資料集上進行微調時,MRT 不僅在 AIME 2024 和 AIME 2025 評估集上取得了更好的效能(這或許在意料之中),而且在相對於結果獎勵強化學習(RL)分佈外的 AMC 2023 資料集上也保持了較好的效能。

MRT 對 token 的處理效率

前文我們已經看到 MRT 可以在 pass@1 準確率上超越標準的結果獎勵強化學習(RL)。接下來,作者嘗試評估 MRT(RL)在 token 效率上是否可以帶來提升。

如圖 7 所示,MRT 在 AIME 2024 資料集上,在相同 token 數量的情況下,平均準確率比基礎模型高出 5%。此外,MRT(RL)在 AIME 2024 上所需的 token 數量比基礎模型少 5 倍,在 MATH 500 上少 4 倍,就能達到相同的效能(本例中使用的是 DeepSeek-R1 蒸餾的 Qwen-1.5B 模型)。

同樣地,MRT 在 token 效率上比結果獎勵 RL 提高了 1.2-1.6 倍。這些結果表明,MRT 在保持或提升準確率的同時,顯著提高了 token 效率。
image.png
回溯搜尋設定中的線性化評估

在這種設定中,模型被限制為先生成一個解決方案,接著進行錯誤檢測,最後在進行修正(如圖 5 所示)。
image.png
該研究首先對基於 Llama-3.1-8B 模型微調的 MRT 的 STaR 變體進行評估。如圖 8(左)所示,MRT 在兩種評估模式下(並行模式為實線;線性化模式為虛線)均實現了最高的測試效率,並線上性化評估模式下將效率提高了 30% 以上。

圖 8(右)顯示,與結果獎勵 GRPO 相比,MRT(RL)透過減少 1.6 倍的 token 來提升線性化效率。
image.png

相關文章