突破 | DeepMind為強化學習引入無監督輔助任務,人工智慧的Atari遊戲水平達到人類的9倍

演算法學習者發表於2017-03-31

選自DeepMind Blog

作者:Max Jaderberg、Volodymyr Mnih、Wojciech Marian Czarnecki

機器之心編譯

參與:李澤南、吳攀、杜夏德

幾個小時前,DeepMind 在其官方部落格發表文章介紹他們在強化學習上的最新研究進展。他們通過為代理在訓練過程中增加兩項額外的任務來增強標準的深度強化學習方法,結果顯示代理實現了更好的表現。

  DeepMind 的主要任務是開拓人工智慧的新疆界,開發可以自主解決任何複雜問題的新系統。我們的強化學習代理已在 Atari 2600 遊戲和圍棋中實現了突破。但這些系統需要大量資料進行長時間訓練,我們一直致力於提高我們的通用學習演算法,改變這一情況。

我們在最近的論文《使用無監督輔助任務的強化學習》中提出了一種可以大大提高人工智慧代理學習速度和系統效能的方法。通過為代理在訓練過程中增加兩項額外的任務來增強標準的深度強化學習方法,我們的代理實現了更好的表現。

下面是我們的代理在 Labyrinth 迷宮任務中的視覺化展示:

第一個任務包括讓代理學習如何控制螢幕中的畫素,這需要代理學習它的行為會如何影響它將要看到的事物,而不僅僅是預測。計算機學習的過程類似於人類嬰兒通過移動和觀察手的運動來學習如何控制手。通過學習如何改變螢幕的不同部分,我們的代理學習了視覺輸入的特性,從而學會如何在遊戲中打出高分。

在第二個任務中,代理通過訓練從近期戰況中預測出動作的即刻得分。為了得到更好的結果,我們將有得分和無得分的歷史資料等比例地輸入系統。通過更多地學習有得分的資料,代理可以更快地學會預測回報的視覺特徵。

結合這些輔助任務,以及我們之前發表的 A3C 論文《Human-level control through deep reinforcement learning》中的成果,我們提出了 UNREAL(無監督強化和輔助學習/UNsupervised REinforcement and Auxiliary Learning)代理。我們在一套 57 個 Atari 遊戲合集和擁有 13 個級別的 3D 迷宮遊戲 Labyrinth 中測試了這一新系統。在所有遊戲中 UNREAL 代理被用同樣的方式訓練,系統只接收螢幕影象的資訊,試圖在遊戲中獲得最多的得分和獎勵。在不同遊戲中,得分的方式各不相同,從玩 3D 迷宮到《Space Invaders》——同樣的 UNREAL 演算法學會了所有這些遊戲,得分幾乎與人類玩家持平,有些甚至超過了人類。下面的視訊中可以看到我們的部分結果。

UNREAL 代理玩 Labyrinth

在 Labyrinth 中,通過使用輔助任務的結果——控制螢幕中的畫素點預測何時獎勵會出現——意味著 UNREAL 的速度比我們過去最好的 A3C 代理快超過十倍,而且得分好很多。我們的新系統在這些 Labyrinth 關卡中有 87% 的關卡可以達到專業人類玩家的表現,其中一些關卡的表現更是超過人類。在 Atari 遊戲中,代理目前的遊戲水平已是人類玩家的 9 倍。我們希望這些成果在不久的將來可以讓人工智慧系統應用到更加複雜的環境中。

  • 論文:使用無監督輔助任務的強化學習(Reinforcement Learning with Unsupervised Auxiliary Tasks)

  

深度強化學習代理已經通過直接最大化累積獎勵而實現了當前最佳的表現。但是,環境包含了遠遠更多型別的可能的訓練訊號。在這篇論文中,我們介紹一種通過強化學習也能同時最大化許多其它偽獎勵函式(pseudo-reward functions)的代理。所有這些任務都共享了一個共同的表徵,就像無監督學習一樣,這種表徵可以繼續在有外部獎勵(extrinsic rewards)存在的情況下發展。我們還引入了一種全新的機制以將這種表徵的重心放到外部獎勵上,從而讓學習可以快速適應該實際任務中最相關的方面。在 Atari 遊戲上,我們的代理的表現顯著超越了之前的最佳表現,平均達到了人類專家表現的 880%;並且在一個有挑戰性的第一人稱三維 Labyrinth 任務合集中實現了平均 10 倍的學習加速和平均 87% 的人類專家在 Labyrinth 上的表現。

©本文為機器之心編譯文章,轉載請聯絡本公眾號獲得授權

  ?------------------------------------------------

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn

相關文章