作者 | Xingyou Song、Wenbo Gao、Yuxiang Yang、Krzysztof Choromanski、Aldo Pacchiano、Yunhao Tang
譯者 | TroyChang
編輯 | Jane
出品 | AI科技大本營( ID:rgznai100)
【導讀】現有的MAML演算法都是基於策略梯度的,在試圖利用隨機策略的反向傳播估計二階導數時遇到了很大的困難。本文為大家介紹一個新框架ES-MAML,這是一個基於進化策略,解決與模型無關的元學習(model agnostic meta learning,MAML)問題的新框架。
在這篇論文中展示瞭如何將ES應用於MAML,從而獲得一種避免二階導數估計問題的演算法,並且在概念上簡單且易於實現。此外,ES- maml可以處理新型的非平滑自適應運算元,其他改進ES方法效能和估計的技術也變得適用。本文透過實驗證明ES-MAML與現有方法相比是有競爭力的,並且通常在較少的查詢下產生更好的適應性。
論文地址:
引言
元學習是機器學習的一種正規化,其目的是開發能夠快速適應新任務和資料的模型和訓練演算法。這篇論文的重點是元學習中的強化學習(Reinforcement Learning, RL),其中資料效率是至關重要的,因為收集新的樣本往往需要昂貴的模擬或與現實世界的互動。RL元學習的一個流行技術是模型無關元學習(MAML),這是一種訓練代理(元策略)的模型,可以透過在新環境中執行一個(或幾個)梯度更新來快速適應新的和未知的任務。
雖然MAML在許多應用方面表現很好,但是實現和執行MAML仍然是很難。一個主要是它的複雜性,MAML是需要估算強化學習中獎勵函式的二階導數,這對於隨機策略的反向傳播來說是很難實現的。另一個就是策略梯度方法固有的過擬合性。 為解決這些問題,本文提出了一種進化策略的MAML,ES-MAML有以下4個優點:
1、不需要估計任何二階導數。這避免了在隨機策略上用反向傳播法估計二階導數所引起的許多麻煩。
2、比梯度策略簡單很多,因為沒有ES沒有不使用反向傳播,所以ES也只能在cpu上執行。
3、具有高度的靈活性,含有不同的適應運算子。
4、ES可以使用確定性策略,保證準確性。還可以使用其他緊湊策略。
關於第(4)點,ES演算法的一個特點是在引數空間中進行探索。策略梯度方法的主要動機是透過隨機操作與環境的互動作用,而ES則是由具有昂貴查詢模型的高維引數空間的最佳化驅動的。在MAML的背景下,“探索”和“任務識別”的概念因此被轉移到引數空間而不是動作空間。這種區別對演算法的穩定性起著至關重要的作用。一個直接的含義是,我們可以使用確定性策略,不像策略梯度是基於隨機策略。另一個不同之處在於,ES只使用總獎勵,而不使用每一集的狀態-動作對。雖然這似乎是一個弱點,因為使用的資訊較少,但在實踐中發現,這似乎會導致更穩定的訓練概況。
ES-MAML演算法
ES-MAML主要在MAML演算法上改進了兩個地方:元學習訓練演算法和自適應運算元的效率。
MAML目標:
MAML演算法要解決的主要問題就是估算
裡面的Hessian矩陣。在原始Monte Carlo ES梯度演算法上,利用Gaussian平滑機制,再透過聯合估計抽樣和評估最佳化演算法。我們稱為零階ES-MAML。
在零階ES-MAML中加入自適應運算元,就成了我們提出的基於梯度自適應的零階ES-MAML,如演算法3。
實驗
MAML演算法的效能可以透過多種方式進行評估。一項重要的方式是最終元策略的效能:該演算法是否可以持續產生具有良好適應性的元策略。在RL設定中,元策略的適應性還取決於所使用查詢次數的數量K:即適應運算子U(.,T).所使用的部署數量。元訓練的速度也很重要,可以透過以下幾種方式進行衡量:元策略更新的次數,掛鐘時間和用於元訓練的推進次數。在本節中,我們將介紹從資料效率(K)和元訓練時間方面評估ES-MAML和PG-MAML各個方面的實驗。
在RL設定中,如果應用ES方法,所使用的資訊量會急劇減少。準確地說,ES只使用一個事件的累積獎勵,而策略梯度使用每個狀態-動作對。因此,我們可能會直觀地認為,ES應該具有更糟糕的抽樣複雜性,因為它對相同數量的滾動使用更少的資訊。然而,在實踐中,ES似乎經常匹配甚至超過策略梯度方法。有幾種解釋被提出:在PG的情況下,特別是像PPO這樣的演算法,網路必須最佳化多個額外的代理目標,如熵加值和值函式,以及超引數,如TD-步驟數。此外,有人認為,ES對延遲獎勵、行動頻率低和長期視野更有抵抗力。在傳統的RL中,ES的這些優點也轉移到了MAML中,我們在本節中對此進行了實證說明。ES可能會在掛鐘時間方面帶來額外的優勢(即使訓練所需的滾數與PG相當),因為它不需要反向傳播,並且可以在cpu上並行化。
作者將ES-MAML與PG-MAML做對比驗,在資料效率(K)和元訓練時間等方面上比較演算法效能。圖1演示了ES-MAML在四角基準上的行為表現。實驗是在獎勵非常稀疏的環境中進行的,其中元策略必須表現出具有探索性的行為。為此我們引入了“四角基準”,以證明PG-MAML演算法的弱點,一個2D方塊上的代理會因為移動到方塊上選定的一個角落而獲得獎勵,但只有當它足夠接近目標角落時才會觀察獎勵,從而使獎勵變得稀疏。在圖1中,我們演示了ES-MAML在四個角問題上的行為。當K = 20時,演算法3的基本版本能夠透過找到目標角正確地探索和自適應任務。此外,它不需要任何修改來鼓勵探索,不像PG-MAML。我們進一步使用K = 10.5,導致效能下降。
對於實際的應用程式,我們可能會被限制使用較少的查詢K,這在以前的MAML工作中已經得到了典型的證明。因此,比較ES-MAML與PG-MAML在適應度非常低的K方面的差異是很有意義的。一種可能的情況是,低K可能會特別損害ES,因為它只使用累積獎勵;如果K = 5,則ES自適應梯度只能利用5個值。相比之下,PG-MAML使用K·H狀態動作對,因此對於K = 5、H = 200, PG-MAML仍然有1000條可用資訊。
然而,我們透過實驗發現,即使在低k環境中,標準ES-MAML(演算法3)仍然與PG-MAML具有競爭力。在圖2中,我們比較了ES-MAML和PG-MAML在四種環境(半豹、游泳者、Walker2d、Ant)和兩種模型架構上的前進-後退和目標-速度任務。一般來說,PG-MAML在目標-速度任務上的表現優於ES-MAML,而ES-MAML在前向-後向任務上的表現與ES-MAML相似,甚至更好。此外,我們觀察到,對於低K, PG-MAML可能是高度不穩定的(請注意寬的誤差條),一些軌跡會災難性地失敗,而ES-MAML相對穩定。在實際應用中,這是一個重要的考慮因素,因為災難性故障的風險是不受歡迎的。
總結
本文提出了一種基於ES演算法的MAML新框架。ES-MAML方法避免了Hessian估計問題,後者需要在PG-MAML中進行復雜修改,並且易於實現。ES- MAML在選擇適應運算子方面很靈活,並且可以透過對ES的一般改進以及更奇特的適應運算子進行增強。特別是,ES-MAML可以與非平滑的適應操作配對,透過實驗發現,這可以產生更好的探索行為,並在稀疏獎勵的環境中,該運算元可以獲得更好的效能。ES-MAML在使用線性或緊湊的確定性策略時表現良好,如果狀態動態可能不穩定,則採用這種策略是一種優勢。