AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在人工智慧領域,"更大即更強" 的理念一直主導著大模型強化學習的發展方向。特別是在提升大語言模型的推理能力方面,業界普遍認為需要海量的強化學習訓練資料才能獲得突破。然而,最新研究卻給出了一個令人驚喜的發現:在強化學習訓練中,資料的學習影響力遠比數量重要。透過分析模型的學習軌跡,研究發現精心選擇的 1,389 個高影響力樣本,就能超越完整的 8,523 個樣本資料集的效果。這一發現不僅挑戰了傳統認知,更揭示了一個關鍵事實:提升強化學習效果的關鍵,在於找到與模型學習歷程高度匹配的訓練資料。
論文標題:LIMR: Less is More for RL Scaling
論文地址:https://arxiv.org/pdf/2502.11886
程式碼地址:https://github.com/GAIR-NLP/LIMR
資料集地址:https://huggingface.co/datasets/GAIR/LIMR
模型地址:https://huggingface.co/GAIR/LIMR
一、挑戰傳統:重新思考強化學習的資料策略
近期,強化學習在提升大語言模型的推理能力方面取得了顯著成效。從 OpenAI 的 o1 到 Deepseek R1,再到 Kimi1.5,這些模型都展示了強化學習在培養模型的自我驗證、反思和擴充套件思維鏈等複雜推理行為方面的巨大潛力。這些成功案例似乎在暗示:要獲得更強的推理能力,就需要更多的強化學習訓練資料。
然而,這些開創性工作留下了一個關鍵問題:到底需要多少訓練資料才能有效提升模型的推理能力?目前的研究從 8000 到 150000 資料量不等,卻沒有一個明確的答案。更重要的是,這種資料規模的不透明性帶來了兩個根本性挑戰:
研究團隊只能依靠反覆試錯來確定資料量,這導致了大量計算資源的浪費
領域內缺乏對樣本數量如何影響模型效能的系統性分析,使得難以做出合理的資源分配決策
這種情況促使研究團隊提出一個更本質的問題:是否存在一種方法,能夠識別出真正對模型學習有幫助的訓練資料?研究從一個基礎場景開始探索:直接從基座模型出發,不借助任何資料蒸餾(類似 Deepseek R1-zero 的設定)。透過深入研究模型在強化學習過程中的學習軌跡,研究發現:並非所有訓練資料都對模型的進步貢獻相同。有些資料能夠顯著推動模型的學習,而有些則幾乎沒有影響。
這一發現促使研究團隊開發了學習影響力度量(Learning Impact Measurement, LIM)方法。透過分析模型的學習曲線,LIM 可以自動識別那些與模型學習程序高度匹配的 "黃金樣本"。實驗結果證明了這一方法的有效性:
精選的 1,389 個樣本就能達到甚至超越使用 8,523 個樣本的效果。
精選 1,389 個樣本就能達到全量資料的效果,在小模型上強化學習優於監督微調
這些發現更新了學術界對強化學習擴充套件的認知:提升模型效能的關鍵不在於簡單地增加資料量,而在於如何找到那些真正能促進模型學習的高質量樣本。更重要的是,這項研究提供了一種自動化的方法來識別這些樣本,使得高效的強化學習訓練成為可能。
二、尋找 "黃金" 樣本:資料的學習影響力測量(LIM)
要找到真正有價值的訓練樣本,研究團隊深入分析了模型在強化學習過程中的學習動態。透過對 MATH-FULL 資料集(包含 8,523 個不同難度級別的數學問題)的分析,研究者發現了一個有趣的現象:不同的訓練樣本對模型學習的貢獻存在顯著差異。
學習軌跡的差異性
在仔細觀察模型訓練過程中的表現時,研究者發現了三種典型的學習模式:
部分樣本的獎勵值始終接近零,表明模型對這些問題始終難以掌握
某些樣本能迅速達到高獎勵值,顯示模型很快就掌握瞭解決方法
最有趣的是那些展現出動態學習進展的樣本,它們的獎勵值呈現不同的提升速率
這一發現引發了一個關鍵思考:如果能夠找到那些最匹配模型整體學習軌跡的樣本,是否就能實現更高效的訓練?
(a) 不同訓練樣本在訓練過程中展現出的多樣化學習模式。(b) 樣本學習軌跡與平均獎勵曲線(紅色)的比較。
LIM:一種自動化的樣本評估方法
基於上述觀察,研究團隊開發了學習影響力測量(Learning Impact Measurement, LIM)方法。LIM 的核心思想是:好的訓練樣本應該與模型的整體學習程序保持同步。具體來說:
1. 計算參考曲線
首先,計算模型在所有樣本上的平均獎勵曲線作為參考:
這條曲線反映了模型的整體學習軌跡。
2. 評估樣本對齊度
接著,為每個樣本計算一個歸一化的對齊分數:
這個分數衡量了樣本的學習模式與整體學習軌跡的匹配程度。分數越高,表示該樣本越 "有價值"。
3. 篩選高價值樣本
最後,設定一個質量閾值 θ,選取那些對齊分數超過閾值的樣本。在實驗中,設定 θ = 0.6 篩選出了 1,389 個高價值樣本,構成了最佳化後的 LIMR 資料集。
對比與驗證
為了驗證 LIM 方法的有效性,研究團隊設計了兩個基線方法:
1. 隨機取樣(RAND):從原始資料集中隨機選擇 1,389 個樣本
2. 線性進度分析(LINEAR):專注於那些顯示穩定改進的樣本
這些對照實驗幫助我們理解了 LIM 的優勢:它不僅能捕獲穩定進步的樣本,還能識別那些在早期快速提升後趨於穩定的有價值樣本。
獎勵設計
對於獎勵機制的設計,研究團隊借鑑了 Deepseek R1 的經驗,採用了簡單而有效的規則型獎勵函式:
當答案完全正確時,給予 + 1 的正向獎勵
當答案錯誤但格式正確時,給予 - 0.5 的負向獎勵
當答案存在格式錯誤時,給予 - 1 的負向獎勵
這種三級分明的獎勵機制不僅能準確反映模型的解題能力,還能引導模型注意答案的規範性。
三、實驗驗證:少即是多的力量
實驗設定與基準
研究團隊採用 PPO 演算法在 Qwen2.5-Math-7B 基座模型上進行了強化學習訓練,並在多個具有挑戰性的數學基準上進行了評估,包括 MATH500、AIME2024 和 AMC2023 等競賽級資料集。
主要發現
實驗結果令人振奮。使用 LIMR 精選的 1,389 個樣本,模型不僅達到了使用全量 8,523 個樣本訓練的效能,在某些指標上甚至取得了更好的表現:
在 AIME2024 上達到了 32.5% 的準確率
在 MATH500 上達到了 78.0% 的準確率
在 AMC2023 上達到了 63.8% 的準確率
相比之下,隨機選擇相同數量樣本的基線模型(RAND)表現顯著較差,這證實了 LIM 選擇策略的有效性。
三種資料選擇策略的效能對比:LIMR 以更少的資料達到更好的效果
LIMR 在三個數學基準測試上的訓練動態表現與全量資料相當,顯著優於隨機取樣
訓練動態分析
更有趣的是模型在訓練過程中表現出的動態特徵。LIMR 不僅在準確率上表現出色,其訓練過程也展現出了更穩定的特徵:
準確率曲線與使用全量資料訓練的模型幾乎重合
模型生成的序列長度變化更加合理,展現出了更好的學習模式
訓練獎勵增長更快,最終也達到了更高的水平
這些結果不僅驗證了 LIM 方法的有效性,也表明透過精心選擇的訓練樣本,確實可以實現 "少即是多" 的效果。
LIMR 的訓練動態分析:從精選樣本中獲得更穩定的學習效果
四、資料稀缺場景下的新發現:RL 優於 SFT
在探索高效訓練策略的過程中,研究者們發現了一個令人深思的現象:在資料稀缺且模型規模較小的場景下,強化學習的效果顯著優於監督微調。
為了驗證這一發現,研究者們設計了一個精心的對比實驗:使用相同規模的資料(來自 s1 的 1000 條資料和來自 LIMO 的 817 條資料),分別透過監督微調和強化學習來訓練 Qwen-2.5-Math-7B 模型。結果令人印象深刻:
在 AIME 測試中,LIMR 的表現較傳統監督微調提升超過 100%
在 AMC23 和 MATH500 上,準確率提升均超過 10%
這些提升是在使用相近數量訓練樣本的情況下實現的
小模型上的策略對比:強化學習的 LIMR 優於監督微調方法
這一發現具有重要意義。雖然 LIMO 和 s1 等方法已經證明了在 32B 規模模型上透過監督微調可以實現高效的推理能力,但研究表明,對於 7B 這樣的小型模型,強化學習可能是更優的選擇。
這個結果揭示了一個關鍵洞見:在資源受限的場景下,選擇合適的訓練策略比盲目追求更具挑戰性的資料更為重要。透過將強化學習與智慧的資料選擇策略相結合,研究者們找到了一條提升小型模型效能的有效途徑。
參考資料:https://github.com/GAIR-NLP/LIMR