超越DeepSeek GRPO的關鍵RL演算法,位元組、清華AIR開源DAPO

机器之心發表於2025-03-18
DeepSeek 提出的 GRPO 可以極大提升 LLM 的強化學習效率,不過其論文中似乎還缺少一些關鍵細節,讓人難以復現出大規模和工業級的強化學習系統。

近日,清華 AIR 和位元組聯合 SIA Lab 釋出了他們的第一項研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪輯和動態取樣策略最佳化)。這是一個可實現大規模 LLM 強化學習的開源 SOTA 系統。此外,使用該演算法訓練的模型也將在近期開源釋出。
image.png
  • 專案頁面:https://dapo-sia.github.io/
  • 論文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 程式碼地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
  • 資料:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k

使用該演算法,該團隊成功讓 Qwen2.5-32B 模型在 AIME 2024 基準上獲得了 50 分,優於同等規模的 DeepSeek-R1-Zero-Qwen-32B,同時 DAPO 版 Qwen2.5-32B 使用的訓練步數還少 50%。
image.png
相較之下,如果使用 GRPO,Qwen2.5-32B 模型在 AIME 2024 基準上只能獲得 30 分。

30 分的成績遠低於 DeepSeek 的強化學習(47 分)。該團隊分析發現,原生版 GRPO 面臨著幾大關鍵問題,比如熵崩潰、獎勵噪音和訓練不穩定。事實上,該團隊表示,很多研究團隊在復現 DeepSeek 的結果時也遇到了類似的難題。他們表示:「這表明 R1 論文中可能省略了開發工業級、大規模且可重現的強化學習系統所需的關鍵訓練細節。」
image.png
Allen AI 研究者 Nathan Lambert 總結了 DAPO 對 GRPO 的改進,包括兩個不同的裁剪超引數、動態取樣、token 層面的策略梯度損失、過長獎勵塑造

下面將從 PPO 到 GRPO 再到 DAPO 逐步介紹,看看這個新的強化學習演算法究竟是如何煉成的。

近端策略最佳化(PPO)

PPO 引入了裁剪式替代目標(clipped surrogate objective)來執行策略最佳化。透過使用裁剪將策略更新限制在先前策略的近端區域內,PPO 可以讓訓練穩定並提高樣本效率。具體而言,PPO 更新策略的方式是最大化以下目標:
image.png
群組相對策略最佳化(GRPO)

與 PPO 相比,GRPO 消除了價值函式並以群組相關的方式來估計優勢。對於特定的問答對 (q, a),行為策略 π_θ_old 取樣一組 G 個個體響應image.png。然後,透過對群組級獎勵image.png進行歸一化來計算第 i 個響應的優勢:
image.png
與 PPO 類似,GRPO 也採用了裁剪目標,同時還有一個直接新增的 KL 懲罰項:
image.png
還值得注意的是,GRPO 是在樣本層級計算目標。確切地說,GRPO 首先會計算每個生成序列中的平均損失,然後再對不同樣本的損失進行平均。正如後面會討論的那樣,這種差異可能會對演算法的效能產生影響。

另外兩項改進

消除 KL 偏離

KL 懲罰項的作用是調節線上策略和凍結參考策略之間的偏離情況。在 RLHF 場景中,RL 的目標是在不偏離初始模型太遠的情況下調整模型行為。然而,在訓練長 CoT 推理模型時,模型分佈可能會與初始模型有顯著差異,因此這種限制是不必要的。因此,在 DAPO 中,KL 項被排除在外。

基於規則的獎勵建模

獎勵模型的使用通常會受到獎勵 hacking 問題的影響。作為替代,該團隊直接使用可驗證任務的最終準確率作為結果獎勵,計算規則如下:
image.png
事實證明,這是啟用基礎模型推理能力的有效方法,這也在多個領域得到了證明,包括自動定理證明、計算機程式設計和數學競賽。

DAPO

研究者提出瞭解耦剪輯(Decouple Clip)和動態取樣策略最佳化(DAPO)演算法。DAPO 對每個問題 q 和答案 a 的一組輸出截圖2025-03-18 09.22.10.png進行取樣,並透過以下目標最佳化策略:
截圖2025-03-18 09.13.29.png
此處
截圖2025-03-18 09.15.49.png
下面將介紹與 DAPO 相關的關鍵技術。

抬高天花板:Clip-Higher

在使用 PPO 或 GRPO 進行的初步實驗中,研究者觀察到了熵崩潰現象:隨著訓練的進行,策略的熵迅速下降(如圖 2b)。某些組的取樣響應通常幾乎相同。這表明有限的探索和早期的確定性策略會阻礙擴充套件過程。
截圖2025-03-18 09.25.46.png
針對這一問題,研究者提出了 Clip-Higher 策略。對重要度取樣率進行剪輯是 PPO-Clip 中的一種策略,用於限制信任區域並增強 RL 的穩定性。上剪輯可以限制策略的探索。在這種情況下,提高「利用 token」的機率要比提高不可能的「探索 token」的機率容易得多。
截圖2025-03-18 09.18.38.png
他們還觀察到,被剪輯 token 的最大機率約為截圖2025-03-18 09.54.21.png(圖 3a)。這一發現支援了他們的分析,即上限剪輯閾值確實限制了低機率 token 的機率增長,從而可能限制了系統的多樣性。

如公式 10 所示,根據 Clip-Higher 策略,研究者將較低和較高的剪輯範圍解耦為 ε_low 和 ε_high:
截圖2025-03-18 09.48.53.png
研究者增加了 ε_high 的值,以便為低機率 token 的增加留出更多空間。如圖 2 所示,這一調整有效地提高了策略的熵,有利於生成更多樣化的樣本。研究者選擇將 ε_low 保持在相對較小的範圍內,因為增大 ε_low 會將這些 token 的機率壓制為 0,從而導致取樣空間的崩潰。

越多越好:動態取樣

當某些提示的準確度等於 1 時,現有的 RL 演算法就會出現梯度遞減問題。根據經驗,準確率等於 1 的樣本數量會繼續增加,如圖 3b 所示。這意味著每批樣本中的有效提示次數會不斷減少,從而導致梯度方差增大,抑制了模型訓練的梯度訊號。

為此,研究者建議進行過度取樣,過濾掉等式 11 中所示精度等於 1 和 0 的提示語,保留批次中所有具有有效梯度的提示語,並保持一致的提示語數量。在訓練之前不斷取樣,直到批次中全部都是準確率既不等於 0 也不等於 1 的樣本。
截圖2025-03-18 09.45.32.png
另外一點發現如圖 6 所示,在動態取樣的情況下,實驗能更快地實現相同的效能。
截圖2025-03-18 09.59.33.png
Rebalancing Act:Token 級策略梯度損失

研究者觀察到,由於所有樣本在損失計算中的權重相同,因此長回覆中的 token 對總體損失的貢獻可能會不成比例地降低,這可能會導致兩種不利影響。

首先,對於高質量的長樣本來說,這種影響會阻礙模型學習其中與推理相關的模式的能力。其次,過長的樣本往往表現出低質量的模式,如胡言亂語和重複詞語。

如圖 4a 和圖 4b 所示,樣本級損失計算由於無法有效懲罰長樣本中的不良模式,會導致熵和響應長度的不健康增長。
截圖2025-03-18 10.06.12.png
捉迷藏:過長的獎勵塑造

為了研究獎勵噪聲的影響,研究者首先應用了超長過濾策略,以掩蓋截斷樣本的損失。如圖 5 所示,這種方法大大穩定了訓練並提高了效能。
截圖2025-03-18 10.10.58.png
此外,他們還提出了「Soft Overlong Punishment」(等式 13),這是一種長度感知懲罰機制,旨在塑造截斷樣本的獎勵。具體來說,當響應長度超過預定義的最大值時,研究者會定義一個懲罰區間。在這個區間內,響應越長,受到的懲罰就越大。這種懲罰會新增到基於規則的原始正確性獎勵中,從而向模型發出訊號,避免過長的響應。
截圖2025-03-18 10.09.10.png
DAPO 的實驗表現

基於 Qwen-32B 基礎模型,該團隊進行了一系列實驗,驗證了新提出的 DAPO 演算法的有效性和優勢。這裡我們略過實驗細節,重點來看看實驗結果。

整體來看,在 AIME 2024 上,使用 DAPO 訓練的 Qwen-32B 模型成長為了一個強大的推理模型,效能優於使用 R1 方法訓練的 Qwen2.5-32B。

如圖 1 所示,可以看到 DAPO 訓練的 Qwen2.5-32B 在 AIME 2024 基準上的效能提升情況。隨著訓練步數增長,模型準確度從 0% 穩步升至了 50%。需要重點指出:達成這一效能所使用的步數僅為 DeepSeek-R1-Zero-Qwen-32B 所需步數的一半。

表 1 展示了新方法中每種訓練技術的貢獻。看得出來,每種技術都對準確度的增長有所貢獻。可以看到,原生 GRPO 只能讓 Qwen2.5-32B 基礎模型的準確度達到 30%。
image.png
至於 token 級損失,雖然它帶來的效能提升較少,但該團隊發現它可增強訓練穩定性並使長度增加得更健康。

訓練動態

為了獲得更透徹的分析,該團隊也分析了訓練動態和中間結果。
image.png
生成響應的長度:該指標與訓練穩定性和效能密切相關。如圖 7a 所示。長度的增加可為模型提供更大的探索空間,允許取樣更復雜的推理行為並透過訓練逐漸強化。但需要注意的是,長度在訓練過程中並不總是保持持續的上升趨勢。在一些相當長的時期內,它可以停滯甚至下降。通常的做法是將長度與驗證準確度結合起來作為評估實驗是否正在惡化的指標。

訓練過程中的獎勵動態:這一直是強化學習中至關重要的監測指標之一,如圖 7b 所示。在這裡的大多數實驗中,獎勵增加的趨勢相對穩定,不會因為實驗設定的調整而出現大幅波動或下降。這表明,在給定可靠獎勵訊號的情況下,語言模型可以穩健地擬合訓練集的分佈。然而,該團隊發現,在訓練集上的最終獎勵往往與在驗證集上的準確度相關性不大,這表明對訓練集存在過擬合現象。
Actor 模型的熵和生成機率:這與模型的探索能力有關,同時也是實驗中密切監控的關鍵指標。直觀地講,模型的熵需要保持在適當的範圍內。過低的熵表示機率分佈過於尖銳,這會導致探索能力喪失。相反,過高的熵往往與過度探索的問題有關,例如亂碼和重複生成。對於生成機率,情況恰恰相反。如前所示,透過應用 Clip-Higher 策略,可以有效地解決熵崩潰的問題。在後續的實驗中,該團隊還發現保持熵緩慢上升的趨勢有利於模型提升效能,如圖 7c 和圖 7d 所示。

案例研究

在 RL 訓練過程中,研究者觀察到一個有趣的現象:Actor 模型的推理模式會隨著時間的推移而動態演化。具體來說,演算法不僅強化了有助於正確解決問題的現有推理模式,還逐漸產生了最初不存在的全新推理模式。這一發現揭示了 RL 演算法的適應性和探索能力,併為模型的學習機制提供了新的見解。

例如,在模型訓練的早期階段,幾乎不存在對之前推理步驟的檢查和反思。然而,隨著訓練的進行,模型表現出明顯的反思和回溯行為,如表 2 所示。這一觀察結果為進一步探索解釋推理能力在 RL 過程中的出現提供了啟示。
截圖2025-03-18 10.12.40.png
更多研究細節,可參考原論文。

相關文章