OpenAI 提出強化學習近端策略最佳化，可替代策略梯度法

思源發表於2017-07-21

近日，OpenAI 釋出了一種新型的強化學習演算法，近端策略最佳化（Proximal Policy Optimization/PPO）演算法，該演算法的實現和調參十分簡單，並且它的效能甚至要超過現階段最優秀的方法。因為該演算法實現非常簡單並且有優秀的效能，PPO 已經成為了 OpenAI 預設使用的強化學習演算法。

近端策略最佳化（PPO）可以讓我們在複雜和具有挑戰性的環境中訓練 AI 策略。如上所示的 Roboschool（進行機器人模擬的開源軟體，整合在 OpenAI Gym 中），其中智慧體嘗試抵達粉紅色的目標點，因此它需要學習怎樣走路、跑動和轉向等。同時該智慧體不僅需要學會怎樣從小球的打擊中保持平衡（利用自身的動量），在被撞倒後還需要學會如何從草地上站起來。

程式碼：https://github.com/openai/baselines
論文：https://openai-public.s3-us-west-2.amazonaws.com/blog/2017-07/ppo/ppo-arxiv.pdf

策略梯度法（Policy gradient methods）是近來使用深度神經網路進行控制的突破基礎，不論是影片遊戲還是 3D 移動或者圍棋控制等，它們都基於策略梯度法。但是透過策略梯度法獲得優秀的結果是十分困難的，因為它對步長大小的選擇非常敏感。如果迭代步長太小，那麼訓練進展會非常慢，但如果迭代步長太大，那麼訊號將受到噪聲的強烈干擾，因此我們會看到效能會急劇降低。同時這種策略梯度法有非常低的樣本效率，它需要數百萬（或數十億）的時間步驟來學習一個簡單的任務。

研究人員希望能透過約束或其他最佳化策略更新（policy update）大小方法來消除這些缺陷，如 TRPO 和 ACER 等方法。這些方法都有其自己的權衡，ACER 方法要比 PPO 方法複雜地多，它需要額外新增程式碼來修正離策略（off-policy）和重構緩衝器，但它在 Atari 基準上僅僅比 PPO 好一丟丟。TRPO 雖然對連續控制任務非常有用，但它並不容易與那些在策略和值函式或輔助損失函式（auxiliary losses）間共享引數的演算法相容，即那些用於解決 Atari 和其他視覺輸入很重要領域的演算法。

近端策略最佳化（PPO）

透過監督學習，我們可以輕鬆地計算實現成本函式，並在成本函式上執行梯度下降。我們應該對 PPO 非常有信心，因為它只需要少量的調參就能實現非常優秀的結果。強化學習成功的路徑並不明顯，演算法通常具有許多難以除錯的活動模組，這些模組需要大量的精力進行調整才能獲得良好的效果。PPO 演算法很好地權衡了實現簡單性、樣本複雜度和調參難度，它嘗試在每一迭代步計算一個更新以最小化成本函式，在計算梯度時還需要確保與先前策略有相對較小的偏差。

我們以前詳細說明了一個 PPO 變體，即使用一個適應性 KL 罰項來控制每一次迭代中的策略改變。這一新變體使用了一種新的目標函式，該目標函式很少在其他演算法中出現：

OpenAI 提出強化學習近端策略最佳化，可替代策略梯度法

該目標函式實現了一種與隨機梯度下降相匹配的置信域（Trust Region）更新方法，它同時還移除了 KL 罰項以簡化演算法和構建適應性更新。在測試中該演算法在連續控制任務中取得了最好的效能，並且儘管實現起來非常簡單，但它同樣在 Atari 上獲得了與 ACER 演算法相匹配的效能。

可控制的複雜機器人

用 PPO 訓練的智慧體發揮出了靈活的移動策略，使它們可以在朝目標地點移動的時候臨時進行轉向和傾斜。

我們已經在用 PPO 訓練出的策略的基礎上創造了互動式智慧體，即我們可以使用鍵盤在 Roboschool 環境中為機器人設定新的目標地點；儘管輸入序列與智慧體訓練的序列不同，它也試圖進行泛化（generalize）。

我們也使用 PPO 來教複雜的模擬機器人如何進行走動，像上方所示的波士頓動力的「Atlas」模型；此模型有 30 個不同的關節，而雙足機器人有 17 個。其它研究人員已經使用 PPO 來訓練機器人，當其經過障礙時，可以展現出引人注目的跑酷技巧。

基準：PPO 和 TRPO

基準的釋出包括 PPO 和 TRPO 的可擴充套件且並行的實現工具，它們兩個都使用 MPI 來進行資料傳輸，而且都使用的是 Python3 和 TensorFlow。我們也加入了策略的預訓練版本，用來在 Roboschool agent zoo 中訓練上述機器人。

論文：近端策略最佳化演算法（Proximal Policy Optimization Algorithms）

OpenAI 提出強化學習近端策略最佳化，可替代策略梯度法

論文地址：https://openai-public.s3-us-west-2.amazonaws.com/blog/2017-07/ppo/ppo-arxiv.pdf

摘要：我們為強化學習提出了一種新型策略梯度法，它可以透過與環境的互動而在抽樣資料中轉換，它還能使用隨機梯度下降最佳化一個「surrogate」目標函式。而標準策略梯度法為每一個資料樣本執行一個梯度更新，因此我們提出了一種新的目標函式，它可以在多個 epoch 中實現小批次（minibatch）更新。這種新方法我們稱之為近端策略最佳化（PPO）演算法，該演算法從置信域策略最佳化（TRPO）演算法獲得了許多啟發，但它更加地易於實現、廣泛和有更好的樣本複雜度（經驗性）。我們在一組基準任務上測試 PPO 的演算法，包括了模擬機器人移動和 Atari 遊戲，這些基準測試展示了 PPO 演算法要比其他線上策略梯度法更優秀，該演算法總體上在樣本複雜度、簡單性和實際時間（wall-time.）中有非常好的均衡。

OpenAI 正在尋找可以幫助他們建造和最佳化強化學習演算法程式碼庫的合作者。如果你對強化學習，標準檢查程式，深入實驗以及開源有興趣，歡迎你來申請（https://jobs.lever.co/openai/5c1b2c12-2d18-42f0-836e-96af2cfca5ef），並且註明你已經閱讀基準 PPO 的相關內容。

原文地址：https://blog.openai.com/openai-baselines-ppo/

OpenAI 提出強化學習近端策略優化，可替代策略梯度法
2017-07-21
OpenAI強化學習優化梯度
強化學習(十三) 策略梯度(Policy Gradient)
2018-12-18
強化學習梯度
強化學習(十六) 深度確定性策略梯度(DDPG)
2019-02-01
強化學習梯度
強化學習-學習筆記14 | 策略梯度中的 Baseline
2022-07-12
強化學習筆記梯度
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
PPO-KL散度近端策略最佳化玩cartpole遊戲
2024-05-15
遊戲
策略梯度玩 cartpole 遊戲，強化學習代替PID演算法控制平衡杆
2024-05-12
梯度遊戲強化學習演算法
端到端最佳化所有能力，位元組跳動提出強化學習LLM Agent框架AGILE
2024-09-30
強化學習框架
基於策略搜尋的強化學習方法
2020-10-02
強化學習
鎖的最佳化策略
2023-05-04
DFS剪枝最佳化策略
2024-03-10
強化學習理論-第4課-值迭代與策略迭代
2024-11-13
強化學習
強化學習五大方面-獎勵與策略結構
2021-01-22
強化學習
MySQL 索引使用策略及最佳化
2019-08-07
MySql索引
利用魯棒控制實現深度強化學習駕駛策略的遷移
2018-12-19
強化學習
Salesforce開發「AI經濟學家」，用強化學習設計稅收策略
2020-08-24
SalesforceAI強化學習
Stacking學習策略
2020-10-23
桌面端前端效能優化策略
2018-07-15
前端優化
Oracle筆記-最佳化策略與工具
2007-04-08
Oracle筆記
MySQL的最佳化建議和策略
2024-06-20
MySql
VUE系列---深度解析 Vue 最佳化策略
2024-07-23
Vue
強化學習入門之智慧走迷宮-策略迭代演算法
2021-06-07
強化學習演算法
機器人策略學習的Game Changer？伯克利提出Body Transformer
2024-08-19
機器人GAMORM
伯克利提出強化學習新方法，可讓智慧體同時學習多個解決方案
2017-10-14
強化學習智慧體
強化學習--策略迭代如何解決01揹包問題？內附程式碼
2024-11-20
強化學習
Oracle學習應用之徹底地優化策略
2008-02-23
Oracle優化
Keras+OpenAI強化學習實踐：深度Q網路
2017-08-22
KerasOpenAI強化學習
web前端圖片極限最佳化策略
2016-01-07
Web前端
移動端首屏優化策略
2018-07-13
優化
SELinux策略語法以及示例策略
2024-06-08
Linux
Verilog RTL優化策略（一）：推薦使用assign語法替代if-else和case語法
2021-09-15
優化
記憶體分配策略學習
2018-04-15
記憶體
史丹佛大學&DeepMind聯合提出機器人控制新方法，RL+IL端到端地學習視覺運動策略
2018-03-19
機器人視覺
效能最佳化的一般策略及方法
2023-11-26
大型網站效能最佳化策略的疑問？？？
2005-06-10
網站
一些淺顯的 dp 最佳化策略
2024-09-03
【強化學習】不用地圖如何導航？DeepMind提出新型雙路徑強化學習「智慧體」架構
2018-04-09
強化學習地圖智慧體架構
【強化學習】強化學習/增強學習/再勵學習介紹
2018-02-24
強化學習

OpenAI 提出強化學習近端策略最佳化，可替代策略梯度法

近端策略最佳化（PPO）

可控制的複雜機器人

基準：PPO 和 TRPO

論文：近端策略最佳化演算法（Proximal Policy Optimization Algorithms）

相關文章