自我反思(尤其是膚淺的)有時對模型效能的助益不大。
模板 1(與 R1-Zero 相同)
模板 2(與 SimpleRL-Zero 相同)
行為 1:自我反思,反覆檢查以確認正確答案(圖 3a);
行為 2:自我反思,糾正最初錯誤的想法(圖 3b 和圖 2);
行為 3:自我反思,在原本正確的答案中引入錯誤(圖 3c);
行為 4:反覆自我反思,但未能得出有效答案(圖 3d)。
在倒數計時(Countdown)任務上覆制 R1-Zero 以分析輸出長度動態;
在數學問題上覆制 R1-Zero 以研究輸出長度與自我反思之間的關係。
在 88 步之前的訓練以塑造獎勵 (r=0.1) 為主,透過調整模型使其在生成 token 預算內停止並在 <answer> </answer > 塊內格式化答案,從而可以更輕鬆地進行最佳化。在此期間,冗長的錯誤響應受到抑制,平均響應長度急劇下降。
在第 88 步,模型開始透過輸出更多重試(retries)來「爬上獎勵山」,朝著更高的獎勵(r=1 表示正確性)攀登。因此,我們觀察到正確響應的長度增加。伴隨而來的副作用是,模型輸出更多冗長的膚淺自我反思,導致平均響應長度激增。
整個 RL 過程是將原本膚淺的自我反思轉變為有效的自我反思,以最大化預期獎勵,從而提高推理能力。