ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘

机器之心發表於2024-07-22
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

吳翼,清華大學交叉資訊院助理教授,曾任 OpenAI 全職研究員,研究領域為強化學習,大模型對齊,人機互動,機器人學習等。2019 年在美國加州大學伯克利分校獲得博士學位,師從 Stuart Russell 教授;2014 年本科畢業於清華大學交叉資訊院(姚班)。其代表作包括:NIPS2016 最佳論文,Value Iteration Network;多智慧體深度強化學習領域最高引用論文,MADDPG 演算法;OpenAI hide-and-seek 專案等。

如何讓大模型更好的遵從人類指令和意圖?如何讓大模型有更好的推理能力?如何讓大模型避免幻覺?能否解決這些問題,是讓大模型真正廣泛可用,甚至實現超級智慧(Super Intelligence)最為關鍵的技術挑戰。這些最困難的挑戰也是吳翼團隊長期以來的研究重點,大模型對齊技術(Alignment)所要攻克的難題。

對齊技術中,最重要的演算法框架就是根據人類反饋的強化學習(RLHF, Reinforcement Learning from Human Feedback)。RLHF 根據人類對大模型輸出的偏好反饋,來學習基於人類反饋的獎勵函式(Reward Model),並進一步對大模型進行強化學習訓練,讓大模型在反覆迭代中學會辨別回覆的好壞,並實現模型能力提升。目前世界上最強的語言模型,比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型,都極其強調 RLHF 訓練的重要性。OpenAI 和 Anthropic 內部也都開發了基於大規模 PPO 演算法的 RLHF 訓練系統進行大模型對齊。

然而,由於 PPO 演算法流程複雜,算力消耗大,美國 AI 公司的大規模 RLHF 訓練系統也從不開源,所以儘管 PPO 演算法非常強大,學術界的對齊工作卻一直很少採用複雜的 PPO 演算法進行 RLHF 研究,轉而普遍使用 SFT(監督微調)或者 DPO(Direct Policy Optimization)等更簡化、更直接、對訓練系統要求更低的對齊演算法。

那麼,簡單的對齊演算法一定效果更好嗎?吳翼團隊發表在 ICML 2024 的工作 “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study” 仔細探討了 DPO 與 PPO 演算法的特點,並指出提升 RLHF 演算法效果的關鍵點。在該工作中,吳翼團隊基於自研的大規模 RLHF 訓練系統,首次採用 PPO 演算法及引數量更少的開源模型,在公認最困難的挑戰 —— 程式碼生成任務 CodeContest—— 上超過閉源大模型 AlphaCode 41B。

圖片

相關成果被 ICML 2024 錄用為 Oral Presentation,並將在 7 月 23 日於 ICML 2024 第一個 Oral session Alignment-1 上和 OpenAI、Anthropic 等知名機構的工作一起進行公開彙報。

圖片

接下來讓我們對比一下 GPT-4 和經過 PPO 演算法訓練的 CodeLlama 34B 模型在程式碼生成上的效果,在例子 1 中,經過 PPO 演算法訓練的 CodeLlama 34B 模型與 GPT-4 模型生成了質量相當的程式碼。

圖片

在示例 2 中,可以看到經過 PPO 演算法訓練的 CodeLlama 34B 模型與 GPT-4 模型都能生成完整並且可執行的 python 程式碼。然而,在這個例子下,GPT-4 生成了錯誤的程式碼,在測試資料上無法正確輸出。而經過 PPO 演算法訓練的 CodeLlama 34B 模型生成的程式碼可以透過測試。

圖片

圖片

在 ICML 2024 的這篇論文中,研究團隊詳細探討了 DPO 與 PPO 演算法的特點,並指出提升 DPO 和 PPO 能力的關鍵點。

圖片

  • 論文標題:Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
  • 論文地址:https://arxiv.org/pdf/2404.10719

DPO 演算法的侷限性

相比於 PPO,DPO 使用離線資料而非線上取樣資料訓練。經分析,DPO 演算法會導致訓練出的模型對訓練資料分佈之外的輸出產生偏好,在某些情況下產生不可預料的回覆。

於是,為了提升 DPO 演算法的能力,研究團隊總結了兩個關鍵技術:在 RLHF 訓練前進行額外的 SFT 訓練,以及使用線上取樣資料而非離線資料

圖片

實驗表明,使用額外的 SFT 訓練可以使 base 模型以及 reference 模型更偏向於資料集內的分佈,大大提升 DPO 演算法效果;另一方面,使用線上取樣資料進行迭代訓練的 DPO 演算法可以得到穩步提升,表現遠遠優於基礎的 DPO 演算法。

PPO 演算法的關鍵點

除去 DPO,論文中也總結了發揮 PPO 最大能力的三個關鍵點:

  • 使用大的批大小(large batch size)
  • 優勢歸一化(advantage normalization)
  • 以及對 reference model 使用指數移動平均進行更新(exponential moving average for the reference model)。

圖片

研究團隊成功使用 PPO 演算法在對話任務 Safe-RLHF/HH-RLHF 以及程式碼生成任務 APPS/CodeContest 上達到了 SOTA 的效果。

圖片

在對話任務上,研究團隊發現綜合了三個關鍵點的 PPO 演算法顯著優於 DPO 演算法以及線上取樣的 DPO 演算法 DPO-Iter。

圖片

在程式碼生成任務 APPS 和 CodeContest 上,基於開源模型 Code Llama 34B,PPO 演算法也達到了最強的水平,在 CodeContest 上超越了之前的 SOTA,AlphaCode 41B。

想要實現效果較好的大模型對齊,高效率的訓練系統是不可缺少的,在實現大規模強化學習訓練上,吳翼團隊有長期的積累,從 2021 年開始就搭建了專屬的分散式強化學習框架。

圖片

  • NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]:提出並開源了用於多智慧體的強化學習並行訓練框架 MAPPO,支援合作場景下的多智慧體訓練,該工作被大量多智慧體領域工作採用,目前論文引用量已超過 1k。
  • ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用於強化學習的分散式訓練框架,可輕鬆擴充套件至上萬個核心,加速比超越 OpenAI 的大規模強化學習系統 Rapid。
  • ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近,吳翼團隊進一步實現了分散式 RLHF 訓練框架 ReaLHF。吳翼團隊的 ICML Oral 論文正是基於 ReaLHF 系統產出的。ReaLHF 系統經過長時間的開發,經歷大量的細節打磨,達到最優效能。相比於之前的開源工作,ReaLHF 可以在 RLHF 這個比預訓練更復雜的場景下達到近乎線性的擴充性,同時具有更高的資源利用率,在 128 塊 A100 GPU 上也能穩定快速地進行 RLHF 訓練,相關工作已開源:https://github.com/openpsi-project/ReaLHF

除了提升大語言模型程式碼能力之外,吳翼團隊還採用多種將強化學習演算法和大模型結合的方式,實現了多種複雜 LLM Agent,並可以和人類進行復雜互動。

在 MiniRTS 中使用強化學習既能聽從人類指令也能做出最優決策的語言智慧體 [4]。

圖片

在狼人殺中訓練策略多樣化的強化學習策略以提升大模型的決策能力 [5]。

圖片

在 Overcooked 遊戲中結合小模型與大模型實現能進行實時反饋的合作 Language Agent [6]。

圖片

結合強化學習訓練的機器人控制策略與大語言模型推理能力讓機器人能夠執行一系列複雜任務 [7]。

圖片

為了使大模型能真正走進千家萬戶,對齊技術是至關重要的,對於學術界和大模型從業者來說,好的開源工作和論文無疑會大大降低實驗成本和開發難度,也期待隨著技術發展,會有更多服務於人類的大模型出現。

[1] Yu, Chao, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, and Yi Wu. "The surprising effectiveness of ppo in cooperative multi-agent games."
[2] Mei, Zhiyu, Wei Fu, Guangju Wang, Huanchen Zhang, and Yi Wu. "SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores."
[3] Mei, Zhiyu, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang, and Yi Wu. "ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation."
[4] Xu, Shusheng, Huaijie Wang, Jiaxuan Gao, Yutao Ouyang, Chao Yu, and Yi Wu. "Language-guided generation of physically realistic robot motion and control."
[5] Xu, Zelai, Chao Yu, Fei Fang, Yu Wang, and Yi Wu. "Language agents with reinforcement learning for strategic play in the werewolf game."
[6] Liu, Jijia, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, and Yu Wang. "Llm-powered hierarchical language agent for real-time human-ai coordination."
[7] Ouyang, Yutao, Jinhan Li, Yunfei Li, Zhongyu Li, Chao Yu, Koushil Sreenath, and Yi Wu. "Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models."

相關文章