新框架ES-MAML：基於進化策略、簡易的元學習方法

AIBigbull2050發表於2019-10-26

原文網址 : http://blog.itpub.net/69946223/viewspace-2661534/

2019-10-25 20:32:47

作者 | Xingyou Song、Wenbo Gao、Yuxiang Yang、Krzysztof Choromanski、Aldo Pacchiano、Yunhao Tang

譯者 | TroyChang

編輯 | Jane

出品 | AI科技大本營（ ID：rgznai100）

【導讀】現有的MAML演算法都是基於策略梯度的，在試圖利用隨機策略的反向傳播估計二階導數時遇到了很大的困難。本文為大家介紹一個新框架ES-MAML，這是一個基於進化策略，解決與模型無關的元學習(model agnostic meta learning，MAML)問題的新框架。

在這篇論文中展示瞭如何將ES應用於MAML，從而獲得一種避免二階導數估計問題的演算法，並且在概念上簡單且易於實現。此外，ES- maml可以處理新型的非平滑自適應運算元，其他改進ES方法效能和估計的技術也變得適用。本文通過實驗證明ES-MAML與現有方法相比是有競爭力的，並且通常在較少的查詢下產生更好的適應性。

論文地址：

https://arxiv.org/pdf/1910.01215.pdf

引言

元學習是機器學習的一種正規化，其目的是開發能夠快速適應新任務和資料的模型和訓練演算法。這篇論文的重點是元學習中的強化學習(Reinforcement Learning, RL)，其中資料效率是至關重要的，因為收集新的樣本往往需要昂貴的模擬或與現實世界的互動。RL元學習的一個流行技術是模型無關元學習(MAML)，這是一種訓練代理(元策略)的模型，可以通過在新環境中執行一個(或幾個)梯度更新來快速適應新的和未知的任務。

雖然MAML在許多應用方面表現很好，但是實現和執行MAML仍然是很難。一個主要是它的複雜性，MAML是需要估算強化學習中獎勵函式的二階導數，這對於隨機策略的反向傳播來說是很難實現的。另一個就是策略梯度方法固有的過擬合性。為解決這些問題，本文提出了一種進化策略的MAML，ES-MAML有以下4個優點：

1、不需要估計任何二階導數。這避免了在隨機策略上用反向傳播法估計二階導數所引起的許多麻煩。

2、比梯度策略簡單很多，因為沒有ES沒有不使用反向傳播，所以ES也只能在cpu上執行。

3、具有高度的靈活性，含有不同的適應操作符。

4、ES可以使用確定性策略，保證準確性。還可以使用其他緊湊策略。

關於第(4)點，ES演算法的一個特點是在引數空間中進行探索。策略梯度方法的主要動機是通過隨機操作與環境的互動作用，而ES則是由具有昂貴查詢模型的高維引數空間的優化驅動的。在MAML的背景下，“探索”和“任務識別”的概念因此被轉移到引數空間而不是動作空間。這種區別對演算法的穩定性起著至關重要的作用。一個直接的含義是，我們可以使用確定性策略，不像策略梯度是基於隨機策略。另一個不同之處在於，ES只使用總獎勵，而不使用每一集的狀態-動作對。雖然這似乎是一個弱點，因為使用的資訊較少，但在實踐中發現，這似乎會導致更穩定的訓練概況。

ES-MAML演算法

ES-MAML主要在MAML演算法上改進了兩個地方：元學習訓練演算法和自適應運算元的效率。

MAML目標：

MAML演算法要解決的主要問題就是估算

裡面的Hessian矩陣。在原始Monte Carlo ES梯度演算法上，利用Gaussian平滑機制，再通過聯合估計抽樣和評估優化演算法。我們稱為零階ES-MAML。

演算法2

在零階ES-MAML中加入自適應運算元，就成了我們提出的基於梯度自適應的零階ES-MAML，如演算法3。

演算法3

實驗

MAML演算法的效能可以通過多種方式進行評估。一項重要的方式是最終元策略的效能：該演算法是否可以持續產生具有良好適應性的元策略。在RL設定中,元策略的適應性還取決於所使用查詢次數的數量K：即適應運算子U(.,T).所使用的部署數量。元訓練的速度也很重要，可以通過以下幾種方式進行衡量：元策略更新的次數，掛鐘時間和用於元訓練的推進次數。在本節中，我們將介紹從資料效率（K）和元訓練時間方面評估ES-MAML和PG-MAML各個方面的實驗。

在RL設定中，如果應用ES方法，所使用的資訊量會急劇減少。準確地說，ES只使用一個事件的累積獎勵，而策略梯度使用每個狀態-動作對。因此，我們可能會直觀地認為，ES應該具有更糟糕的抽樣複雜性，因為它對相同數量的滾動使用更少的資訊。然而，在實踐中，ES似乎經常匹配甚至超過策略梯度方法。有幾種解釋被提出:在PG的情況下，特別是像PPO這樣的演算法，網路必須優化多個額外的代理目標，如熵加值和值函式，以及超引數，如TD-步驟數。此外，有人認為，ES對延遲獎勵、行動頻率低和長期視野更有抵抗力。在傳統的RL中，ES的這些優點也轉移到了MAML中，我們在本節中對此進行了實證說明。ES可能會在掛鐘時間方面帶來額外的優勢(即使訓練所需的滾數與PG相當)，因為它不需要反向傳播，並且可以在cpu上並行化。

作者將ES-MAML與PG-MAML做對比驗，在資料效率（K）和元訓練時間等方面上比較演算法效能。圖1演示了ES-MAML在四角基準上的行為表現。實驗是在獎勵非常稀疏的環境中進行的，其中元策略必須表現出具有探索性的行為。為此我們引入了“四角基準”，以證明PG-MAML演算法的弱點，一個2D方塊上的代理會因為移動到方塊上選定的一個角落而獲得獎勵，但只有當它足夠接近目標角落時才會觀察獎勵，從而使獎勵變得稀疏。在圖1中，我們演示了ES-MAML在四個角問題上的行為。當K = 20時，演算法3的基本版本能夠通過找到目標角正確地探索和自適應任務。此外，它不需要任何修改來鼓勵探索，不像PG-MAML。我們進一步使用K = 10.5，導致效能下降。

圖1

對於實際的應用程式，我們可能會被限制使用較少的查詢K，這在以前的MAML工作中已經得到了典型的證明。因此，比較ES-MAML與PG-MAML在適應度非常低的K方面的差異是很有意義的。一種可能的情況是，低K可能會特別損害ES，因為它只使用累積獎勵;如果K = 5，則ES自適應梯度只能利用5個值。相比之下，PG-MAML使用K·H狀態動作對，因此對於K = 5、H = 200, PG-MAML仍然有1000條可用資訊。

然而，我們通過實驗發現，即使在低k環境中，標準ES-MAML(演算法3)仍然與PG-MAML具有競爭力。在圖2中，我們比較了ES-MAML和PG-MAML在四種環境(半豹、游泳者、Walker2d、Ant)和兩種模型架構上的前進-後退和目標-速度任務。一般來說，PG-MAML在目標-速度任務上的表現優於ES-MAML，而ES-MAML在前向-後向任務上的表現與ES-MAML相似，甚至更好。此外，我們觀察到，對於低K, PG-MAML可能是高度不穩定的(請注意寬的誤差條)，一些軌跡會災難性地失敗，而ES-MAML相對穩定。在實際應用中，這是一個重要的考慮因素，因為災難性故障的風險是不受歡迎的。

圖2

總結

本文提出了一種基於ES演算法的MAML新框架。ES-MAML方法避免了Hessian估計問題，後者需要在PG-MAML中進行復雜修改，並且易於實現。ES- MAML在選擇適應操作符方面很靈活，並且可以通過對ES的一般改進以及更奇特的適應操作符進行增強。特別是，ES-MAML可以與非平滑的適應操作配對，通過實驗發現，這可以產生更好的探索行為，並在稀疏獎勵的環境中，該運算元可以獲得更好的效能。ES-MAML在使用線性或緊湊的確定性策略時表現良好，如果狀態動態可能不穩定，則採用這種策略是一種優勢。

https://www.toutiao.com/i6751717657071845896/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2661534/，如需轉載，請註明出處，否則將追究法律責任。

基於策略搜尋的強化學習方法
2020-10-02
強化學習
Golang 學習——基於 Gin 框架進行 httptest 單元測試
2020-05-18
Golang框架HTTP
基於Cucumber框架的學習
2024-08-23
框架
VNPY 一種基於統計的交易策略簡易實現
2018-08-26
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
如何基於元學習方法進行有效的模型訓練？四篇論文詳細剖析元模型的學習原理和過程
2021-04-05
模型
基於化學環境的多相催化吸附機器學習框架
2022-10-11
機器學習框架
Unity Shader 基於光照圖的簡易晝夜變化
2022-05-21
Unity
分享一個自己閱讀 Laravel 原始碼寫的一個簡易框架,可用於學習
2019-10-13
Laravel原始碼框架
使用深度學習進行基於AI的面部識別的不同方法
2019-01-18
深度學習AI
最新最簡易的遷移學習方法，人員再識別新模型 | AI一週學術
2019-03-11
遷移學習模型AI
基於Websocket的簡易webshell實現
2018-11-05
Webshell
基於Vue的簡易MVVM實現
2019-05-12
VueMVVM
express框架+mongodb簡易學生管理
2020-12-30
Express框架MongoDB
DeepMind用元強化學習框架探索多巴胺在學習過程中的作用
2019-02-21
強化學習框架
簡易RPC框架：序列化機制
2019-01-19
RPC框架
遷移學習系列---基於例項方法的遷移學習
2022-03-09
遷移學習
基於 GitHub 的敏捷學習方法之道與術
2019-02-28
Github敏捷
基於react的hash路由簡易實現
2019-04-09
React路由
基於Redis的簡易延時佇列
2023-12-09
Redis佇列
新鮮開源：基於TF2.0的深度強化學習平臺
2019-02-23
TF2強化學習
【線上直播】Paper Reading | 基於學習的引數化查詢最佳化方法
2024-01-24
Netty 框架學習 —— 基於 Netty 的 HTTP/HTTPS 應用程式
2021-06-27
Netty框架HTTP
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
基於元件化開發，一個簡單的Android專案框架
2018-10-17
元件化Android框架
強化學習的框架化，會引爆AI開發的新腦洞嗎？
2019-01-28
強化學習框架AI
DeepVS：基於深度學習的影片顯著性方法
2018-09-26
深度學習
Dopamine - 靈活、可重複的強化學習研究新框架
2018-09-05
強化學習框架
基於 git 打造簡易的 npm 私有倉庫
2018-04-25
GitNPM
基於SSM框架的簡單問答社群
2020-07-16
SSM框架
關於 Roguelike 的探討，及基於 Roguelike 的新框架
2021-08-06
框架
學習abp vnext框架到精簡到我的Vop框架
2020-12-04
框架
Netty 框架學習 —— 單元測試
2021-06-25
Netty框架
IT小白們進擊前端工程師的學習路線：編輯器，基礎進階學習要點，框架
2019-12-20
前端工程師框架
強化學習-學習筆記14 | 策略梯度中的 Baseline
2022-07-12
強化學習筆記梯度
Zookeeper學習——基礎框架
2019-04-15
框架
學習Promise && 簡易實現Promise
2018-05-30
Promise
元學習簡單介紹
2020-10-06

新框架ES-MAML：基於進化策略、簡易的元學習方法

引言

ES-MAML演算法

實驗

總結

相關文章