大語言模型(LLMs)在推理任務中,如數學問題求解和程式設計,已經展現出了優秀的效能。儘管它們能力強大,但在實現能夠透過計算和互動來改進其回答的演算法方面仍然面臨挑戰。現有的自我糾錯方法要麼依賴於提示工程,要麼需要使用額外的模型進行微調,但這些方法都有侷限性,往往無法產生有意義的自我糾錯。
這是谷歌9月釋出在arxiv上的論文,研究者們提出了一種新方法自我糾錯強化學習(SCoRe),旨在使大語言模型能夠在沒有任何外部反饋或評判的情況下"即時"糾正自己的錯誤。SCoRe透過線上多輪強化學習,使用自生成的資料來訓練單一模型。這種方法解決了監督式微調中的一些挑戰,如模型傾向於進行微小編輯而不做實質性改進,以及訓練資料與推理資料之間分佈差異所帶來的問題。
方法詳細描述
SCoRe的工作原理分為兩個階段:
- 初始化階段:- 訓練模型最佳化糾錯效能,同時保持其初始回答接近基礎模型的回答。- 這可以防止模型在第一次嘗試時偏離太遠。
- 強化學習階段:- 模型進行多輪強化學習,以最大化初始回答和糾正後回答的獎勵。- 包含一個獎勵加成,以鼓勵從第一次到第二次嘗試有顯著改進。
透過這種訓練結構,SCoRe確保模型不僅僅是產生最佳的初始回答並進行最小化糾正,而是學會對其初始答案進行有意義的改進。
如圖所示,SCoRe的方法概述包括了初始化階段和強化學習階段,展示瞭如何透過這兩個階段來最佳化模型的自我糾錯能力。
https://avoid.overfit.cn/post/84d1cd5034a94a7bb51dfbe951b30ed2