NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]:提出並開源了用於多智慧體的強化學習並行訓練框架 MAPPO,支援合作場景下的多智慧體訓練,該工作被大量多智慧體領域工作採用,目前論文引用量已超過 1k。
ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用於強化學習的分散式訓練框架,可輕鬆擴充套件至上萬個核心,加速比超越 OpenAI 的大規模強化學習系統 Rapid。
ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近,吳翼團隊進一步實現了分散式 RLHF 訓練框架 ReaLHF。吳翼團隊的 ICML Oral 論文正是基於 ReaLHF 系統產出的。ReaLHF 系統經過長時間的開發,經歷大量的細節打磨,達到最優效能。相比於之前的開源工作,ReaLHF 可以在 RLHF 這個比預訓練更復雜的場景下達到近乎線性的擴充性,同時具有更高的資源利用率,在 128 塊 A100 GPU 上也能穩定快速地進行 RLHF 訓練,相關工作已開源:https://github.com/openpsi-project/ReaLHF
除了提升大語言模型程式碼能力之外,吳翼團隊還採用多種將強化學習演算法和大模型結合的方式,實現了多種複雜 LLM Agent,並可以和人類進行復雜互動。 在 MiniRTS 中使用強化學習既能聽從人類指令也能做出最優決策的語言智慧體 [4]。在狼人殺中訓練策略多樣化的強化學習策略以提升大模型的決策能力 [5]。在 Overcooked 遊戲中結合小模型與大模型實現能進行實時反饋的合作 Language Agent [6]。結合強化學習訓練的機器人控制策略與大語言模型推理能力讓機器人能夠執行一系列複雜任務 [7]。為了使大模型能真正走進千家萬戶,對齊技術是至關重要的,對於學術界和大模型從業者來說,好的開源工作和論文無疑會大大降低實驗成本和開發難度,也期待隨著技術發展,會有更多服務於人類的大模型出現。 [1] Yu, Chao, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, and Yi Wu. "The surprising effectiveness of ppo in cooperative multi-agent games."[2] Mei, Zhiyu, Wei Fu, Guangju Wang, Huanchen Zhang, and Yi Wu. "SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores."[3] Mei, Zhiyu, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang, and Yi Wu. "ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation."[4] Xu, Shusheng, Huaijie Wang, Jiaxuan Gao, Yutao Ouyang, Chao Yu, and Yi Wu. "Language-guided generation of physically realistic robot motion and control."[5] Xu, Zelai, Chao Yu, Fei Fang, Yu Wang, and Yi Wu. "Language agents with reinforcement learning for strategic play in the werewolf game."[6] Liu, Jijia, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, and Yu Wang. "Llm-powered hierarchical language agent for real-time human-ai coordination."[7] Ouyang, Yutao, Jinhan Li, Yunfei Li, Zhongyu Li, Chao Yu, Koushil Sreenath, and Yi Wu. "Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models."