突破 | DeepMind為強化學習引入無監督輔助任務,人工智慧的Atari遊戲水平達到人類的9倍
選自DeepMind Blog
作者:Max Jaderberg、Volodymyr Mnih、Wojciech Marian Czarnecki
機器之心編譯
參與:李澤南、吳攀、杜夏德
幾個小時前,DeepMind 在其官方部落格發表文章介紹他們在強化學習上的最新研究進展。他們通過為代理在訓練過程中增加兩項額外的任務來增強標準的深度強化學習方法,結果顯示代理實現了更好的表現。
DeepMind 的主要任務是開拓人工智慧的新疆界,開發可以自主解決任何複雜問題的新系統。我們的強化學習代理已在 Atari 2600 遊戲和圍棋中實現了突破。但這些系統需要大量資料進行長時間訓練,我們一直致力於提高我們的通用學習演算法,改變這一情況。
我們在最近的論文《使用無監督輔助任務的強化學習》中提出了一種可以大大提高人工智慧代理學習速度和系統效能的方法。通過為代理在訓練過程中增加兩項額外的任務來增強標準的深度強化學習方法,我們的代理實現了更好的表現。
下面是我們的代理在 Labyrinth 迷宮任務中的視覺化展示:
第一個任務包括讓代理學習如何控制螢幕中的畫素,這需要代理學習它的行為會如何影響它將要看到的事物,而不僅僅是預測。計算機學習的過程類似於人類嬰兒通過移動和觀察手的運動來學習如何控制手。通過學習如何改變螢幕的不同部分,我們的代理學習了視覺輸入的特性,從而學會如何在遊戲中打出高分。
在第二個任務中,代理通過訓練從近期戰況中預測出動作的即刻得分。為了得到更好的結果,我們將有得分和無得分的歷史資料等比例地輸入系統。通過更多地學習有得分的資料,代理可以更快地學會預測回報的視覺特徵。
結合這些輔助任務,以及我們之前發表的 A3C 論文《Human-level control through deep reinforcement learning》中的成果,我們提出了 UNREAL(無監督強化和輔助學習/UNsupervised REinforcement and Auxiliary Learning)代理。我們在一套 57 個 Atari 遊戲合集和擁有 13 個級別的 3D 迷宮遊戲 Labyrinth 中測試了這一新系統。在所有遊戲中 UNREAL 代理被用同樣的方式訓練,系統只接收螢幕影象的資訊,試圖在遊戲中獲得最多的得分和獎勵。在不同遊戲中,得分的方式各不相同,從玩 3D 迷宮到《Space Invaders》——同樣的 UNREAL 演算法學會了所有這些遊戲,得分幾乎與人類玩家持平,有些甚至超過了人類。下面的視訊中可以看到我們的部分結果。
UNREAL 代理玩 Labyrinth
在 Labyrinth 中,通過使用輔助任務的結果——控制螢幕中的畫素點預測何時獎勵會出現——意味著 UNREAL 的速度比我們過去最好的 A3C 代理快超過十倍,而且得分好很多。我們的新系統在這些 Labyrinth 關卡中有 87% 的關卡可以達到專業人類玩家的表現,其中一些關卡的表現更是超過人類。在 Atari 遊戲中,代理目前的遊戲水平已是人類玩家的 9 倍。我們希望這些成果在不久的將來可以讓人工智慧系統應用到更加複雜的環境中。
-
論文:使用無監督輔助任務的強化學習(Reinforcement Learning with Unsupervised Auxiliary Tasks)
深度強化學習代理已經通過直接最大化累積獎勵而實現了當前最佳的表現。但是,環境包含了遠遠更多型別的可能的訓練訊號。在這篇論文中,我們介紹一種通過強化學習也能同時最大化許多其它偽獎勵函式(pseudo-reward functions)的代理。所有這些任務都共享了一個共同的表徵,就像無監督學習一樣,這種表徵可以繼續在有外部獎勵(extrinsic rewards)存在的情況下發展。我們還引入了一種全新的機制以將這種表徵的重心放到外部獎勵上,從而讓學習可以快速適應該實際任務中最相關的方面。在 Atari 遊戲上,我們的代理的表現顯著超越了之前的最佳表現,平均達到了人類專家表現的 880%;並且在一個有挑戰性的第一人稱三維 Labyrinth 任務合集中實現了平均 10 倍的學習加速和平均 87% 的人類專家在 Labyrinth 上的表現。
©本文為機器之心編譯文章,轉載請聯絡本公眾號獲得授權。
?------------------------------------------------
加入機器之心(全職記者/實習生):hr@almosthuman.cn
投稿或尋求報導:editor@almosthuman.cn
廣告&商務合作:bd@almosthuman.cn
相關文章
- 【ML吳恩達】3 有監督學習和無監督學習吳恩達
- 機器學習——監督學習&無監督學習機器學習
- 有監督學習和無監督學習
- 一圖看懂監督學習、無監督學習和半監督學習
- 什麼是有監督學習和無監督學習
- 從多模態到泛化性,無監督學習如何成為人工智慧的下一站?人工智慧
- 吳恩達機器學習筆記 —— 14 無監督學習吳恩達機器學習筆記
- 人工智慧 (02) 機器學習 - 監督式學習分類方法人工智慧機器學習
- 人工智慧 (05) 機器學習 - 無監督式學習群集方法人工智慧機器學習
- 非監督學習最強攻略
- 【重磅】AlphaZero煉成最強通用棋類AI,DeepMind強化學習演算法8小時完爆人類棋類遊戲AI強化學習演算法遊戲
- 無監督學習之降維
- 【無監督學習】2:DBSCAN聚類演算法原理聚類演算法
- 使用Transformer與無監督學習,OpenAI提出可遷移至多種NLP任務的通用模型ORMOpenAI模型
- 監督學習or無監督學習?這個問題必須搞清楚
- 監督學習,無監督學習常用演算法集合總結,引用scikit-learn庫(監督篇)演算法
- 監督學習
- 基於自編碼器的表徵學習:如何攻克半監督和無監督學習?
- 深度學習中的互資訊:無監督提取特徵深度學習特徵
- DeepMind開源強化學習庫TRFL強化學習
- 吳恩達《Machine Learning》精煉筆記 1:監督學習與非監督學習吳恩達Mac筆記
- 觀點 | 通往通用人工智慧的路上,我們少不了無監督學習人工智慧
- 人人都能讀懂的無監督學習:什麼是聚類和降維?聚類
- Nature:能自主學習的人工突觸,為無監督學習開闢新的路徑
- 建立細分客戶的無監督學習專案
- [譯] Python 中的無監督學習演算法Python演算法
- 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多工學習
- 【機器學習基礎】無監督學習(1)——PCA機器學習PCA
- 機器學習:監督學習機器學習
- 自監督學習
- DeepMind開源強化學習遊戲框架,25款線上遊戲等你來挑戰強化學習遊戲框架
- 機器學習-無監督學習(人臉識別,使用NMF進行特徵提取)機器學習特徵
- DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習強化學習智慧體
- 與模型無關的元學習,UC Berkeley提出一種可推廣到各類任務的元學習方法模型
- 無模型的強化學習方法模型強化學習
- 【機器學習基礎】無監督學習(3)——AutoEncoder機器學習
- 機器學習個人筆記(三)之無監督學習機器學習筆記
- 機器學習7-模型儲存&無監督學習機器學習模型