超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

視學演算法發表於2020-04-06

近日,LSTM 的發明人、著名深度學習專家 Jürgen Schmidhuber 發表的一篇技術報告引起機器學習社群關注,論文題為“顛倒強化學習:不要預測獎勵——把它們對映到行為上”。

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

論文地址:

https://arxiv.org/pdf/1912.02875.pdf

與技術報告同時發表的是包括Jürgen Schmidhuber在內,來自NNAISENSE和The Swiss AI Lab IDSIA的新研究“使用顛倒強化學習來訓練智慧體”(Training Agents using Upside-Down Reinforcement Learning)。

RL演算法要麼使用價值函式預測獎勵,要麼使用策略搜尋使其最大化。該研究提出一種替代方法:顛倒RL(Upside-Down RL),主要使用監督學習來解決RL問題

這個新穎的想法立即引起研究社群關注,有人認為它是一個超級有趣的idea。

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

但也有Reddit使用者表示,雖然它看起來是個有趣的想法,但考慮到RainBow、Sac等其他研究,將其與DQN和A2C相比較並不十分合適儘管論文沒有提到任何的SOTA,但摘要中提到它打敗了傳統的baseline

接下來,讓我們來看 Jürgen Schmidhuber 撰寫的技術報告的關鍵想法,以及論文中描述的具體實現。

顛倒RL:不要預測獎勵,將獎勵作為輸入

Jürgen Schmidhuber的技術報告摘要:

我們將強化學習(RL)轉變為一種監督學習(SL)的形式,方法是將傳統RL顛倒過來,稱之為超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來或顛倒RL (Upside Down RL, UDRL)。標準RL預測獎勵,而UDRL使用獎勵作為任務定義的輸入,以及時間範圍的表示和歷史資料以及可期的未來資料的其他可計算函式。

UDRL學會將這些輸入觀察結果解釋為命令,並根據過去(可能是偶然的)經歷通過SL將它們對映為行為(或行為概率)。UDRL一般通過輸入命令來實現高獎勵或其他目標,例如:在一定時間內獲得大量獎勵!另一篇關於UDRL的首個實驗的論文(Training agents with upside-down reinforcement learning)表明,UDRL在某些具有挑戰性的RL問題上可以勝過傳統的baseline演算法。

我們還提出了一種相關的簡單而且通用的方法來教機器人模仿人類。首先,對人模仿機器人當前的行為進行錄影,然後讓機器人通過監督學習將視訊(作為輸入命令)對映到這些行為上,然後讓其概括和模仿先前未知的人類行為。這種Imitate-Imitator的概念實際上可以解釋為什麼生物進化導致父母會模仿嬰兒的咿呀學語。

基本想法

傳統的RL系統學習根據給定的先前行為和觀察結果來預測獎勵,並學習將這些預測轉變為獎勵行動。我們的新方法UDRL或超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來是完全不同的。它根本不預測獎勵。相反,它將獎勵作為輸入。更準確地說,超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來系統以期望獎勵和時間範圍的形式執行命令,例如:“在這麼長的時間內獲得這麼多的獎勵。”通過與環境進行簡單互動,它能通過梯度下降來學習,將這種型別的自生成命令對映到相應的動作概率。從這種自學的知識可以推斷出解決新問題的方法,例如:“用更少的時間獲得更多的獎勵。”

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

圖1:傳統RL中的action-value function(Q)(如Q-learning)與超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來中的行為函式(B)之間的一個關鍵區別是,行為和回報的角色是反過來的。此外,B可以有其他的命令輸入,如所需的狀態或實現所需回報的時間範圍。

讓我們更詳細地概述一下這個新原則。一個超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來 agent可以在一次終身試驗中與其環境互動。在給定的時間內,行為的歷史和向量值的成本(例如,時間、精力、痛苦和獎勵訊號)和其他到目前為止的觀察結果包含了agent可以知道的有關其自身和環境當前狀態的所有資訊。現在,它要展望未來的極限,試圖在到達極限之前獲得大量回報。

對於所有過去的時間對(time1 < time2),它可以回溯性地為自己建立額外的、一致的、向量值的命令輸入,從而指示任務,例如:在time1和time2之間實現已經觀察到的獎勵/成本。或者:獲得一半以上的獎勵,等等。

現在,它可以簡單地使用基於梯度的SL來訓練可微分的通用計算機C,例如遞迴神經網路(RNN)來將隨時間變化的感官輸入對映到已知的相應動作序列,並通過定義時間範圍和所需累積獎勵的特殊命令輸入進行增強。

如果到目前為止的經驗包括從某個起點到某個目標的、不同但成本相同的動作序列,那麼C將學習在給定命令和其他輸入的情況下,近似估計適當動作的條件期望值(或概率,取決於設定)。

到目前為止,該方法可能會產生大量關於如何用有限的資源(如時間/精力/其他成本)解決各種問題的知識。然而,我們通常希望C解決使用者給定的問題,特別是快速獲得大量獎勵,例如,通過快速到達避免撞到障礙物、快速到達充電站而避免電池快用完引起的飢餓(負獎勵)。可以將這種需求編碼為使用者定義的型別命令(較小的期望痛苦、較小的期望時間),C將根據到目前為止通過SL掌握的關於開始、目標、痛苦和時間的知識進行歸納和處理。這將延長C的終身經驗;所有新的觀察結果立即成為C的成長訓練集的一部分,以持續地改進C的行為。

出於教學目的,本技術報告首先正式介紹確定性環境的RL基礎,以及控制器與環境之間的Markovian介面,然後討論更復雜的情況。

在論文Training Agents using Upside-Down Reinforcement Learning中,我們描述了第一次超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來實驗中的具體超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來實現,並給出了顯著的實驗結果。

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

論文地址:

https://arxiv.org/pdf/1912.02877v1.pdf

實驗和結果:特定任務輕鬆超越傳統RL演算法DQN、A2C

本實驗的目的是確定超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來的實際可行性,並將其與兩個著名的傳統RL演算法:Deep Q-Networks (DQN)Advantage Actor-Critic (A2C)進行比較。

環境

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

圖3(a)

LunarLander-v2(圖3a)是Gym RL庫中提供的一個簡單的Markovian環境,目標是通過控制主引擎和側引擎將航天器降落在著陸臺上。在整個過程中,agent在每個時間步長都得到負的獎勵,隨著它在位置和方向上越接近最優著陸位置,獎勵的幅度也會減小。最後結束時,如果agent墜機,獎勵是-100;如果agent成功著陸,獎勵是+100。

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

圖3(b)

TakeCover-v0(圖3b)環境是用於視覺化RL研究的VizDoom庫的一部分。agent在一個矩形房間的中心附近,面向對面的牆壁,怪物隨機出現並向agent開槍射擊。agent必須學會向左或向右移動來避免被擊中,儘可能地延長生存時間。對於agent生存的每個時間步長,獎勵都是+1。

從技術上講,agent與環境的介面都是非Markovian的,因為它始終無法看到對面牆的全域性。為了降低部分可觀測度,我們將最近的8個視覺幀疊加在一起產生agent觀測。幀也被轉換成灰度,並從原始解析度160×120下采樣到32×32。

結果

最後20次執行的結果如圖4所示,實線表示平均評估回報,陰影區域表示1000個bootstrap樣本的95%置信區間。

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

圖4:LunarLander-v2和TakeCover-v0的評估結果。實線表示使用調優超引數和實驗種子1-20進行20次以上執行的評估得分的平均值。陰影區域表示使用1000個 bootstrap samples的95%置信區間。每個評估分數是100 episode返回的平均值。

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

圖5:LunarLanderSparse的結果,這是LunarLander-v2的一個稀疏獎勵版本,其中累積獎勵延遲到每個episode的結尾。與DQN和A2C相比,超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來的學習速度更快、更一致。

對於LunarLander-v2,返回100-140表示成功著陸,返回200以上表示接近最佳策略。超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來在這項任務的表現比DQN和A2C要差。但對單個agent的檢查表明,它能夠持續地訓練成功著陸的agent,但是有些agent能快速學習並獲得類似於A2C/DQN的回報時,其他agent則較低迴報時停滯不前。我們推測這種環境比較適合TD學習,因為它的獎勵結構比較密集,最後獎勵訊號比較大。

對於TakeCover-v0,由於時間限制,最大可能的回報是2100。但是,由於環境的困難性(怪物的數量隨時間增加)和部分的可觀察性,如果超過100 episodes的平均獎勵大於750,就可以認為任務已經解決。在這項任務中,超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來輕鬆地超越了DQN和A2C,證明了它對高維控制問題的適用性

- END -

如果看到這裡,說明你喜歡這篇文章,請轉發、點贊掃描下方二維碼或者微信搜尋「perfect_iscas」,新增好友後即可獲得10套程式設計師全棧課程+1000套PPT和簡歷模板向我私聊「進群」二字即可進入高質量交流群。

掃描二維碼進群↓

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

在看 超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來

相關文章