
論文標題:Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
論文地址:https://arxiv.org/pdf/2503.07572
專案主頁:https://cohenqu.github.io/mrt.github.io/




強制終止當前的思考塊(thought block),使用「time is up」提示(prompt);
讓模型根據當前的推理字首(reasoning prefix)生成其最佳猜測的解決方案。
使用元證明器策略 μ 計算思維字首的獎勵;
基於這個字首取樣多個策略內的軌跡(rollouts),這些軌跡被均勻分配為:繼續進一步推理;終止思考軌跡並生成最佳猜測的解決方案;
根據對進展(progress)的獎勵,然後計算進展獎勵。


基於 DeepScaleR-1.5B-Preview 基礎模型微調的模型達到了其規模下 SOTA 水平。由於模型在經過蒸餾或已經經過強化學習(RL)訓練的基礎模型上進行了訓練,因此絕對效能提升較小。然而,與基於結果獎勵的 RL 方法(如 GRPO)相比,使用 MRT 的相對效能提升約為 2-3 倍。
當使用 DeepScaleR-1.5B 模型在 AIME 問題資料集上進行微調時,MRT 不僅在 AIME 2024 和 AIME 2025 評估集上取得了更好的效能(這或許在意料之中),而且在相對於結果獎勵強化學習(RL)分佈外的 AMC 2023 資料集上也保持了較好的效能。


