DeepMind新智慧體架構Unicorn:持續學習能力勝過多個基準智慧體

量子位發表於2018-02-27
安妮 編譯自 arXiv
量子位 出品 | 公眾號 QbitAI

出於未知原因,DeepMind為自己研究起的名字總飽含詩意,在學術界中顯得尤為畫風清奇。

比如“彩虹”?,比如“獨角獸”?。

前者,是去年10月DeepMind投遞到AAAI 2018的六種DQN混血論文;後者,是我們今天要介紹的主角。

近日,DeepMind提出了命名為“獨角獸(Unicorn)”的智慧體架構,它展示出厲害的持續學習能力,已經勝過很多基準智慧體。

這是怎樣實現的呢?

研究人員表示,獨角獸通過利用並行的off-policy學習策略,統一表示和學習多種策略,才達到了這樣的表現。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1 DeepMind曾經的研究——一個會跑酷的小人

何為持續學習?

持續學習(Continual learning),指的是智慧體藉助已經獲得的知識和技能,從經驗中學習持續的任務流的一種方法。

這種設定的主要特點是,它有潛力成為一個完全獨立的智慧體,可以增強構建自己的能力,解決豐富和複雜環境中的挑戰,而無需人類提供的資料集、任務邊界或獎勵設定等的干預。

因為智慧體的能力在增長,所以它會去考慮複雜性持續增長的任務。理想的持續學習智慧體應該能:

(A)解決多項任務

(B)當任務相關時表現出協同效應

(C)處理任務之間深度依賴的結構

獨角獸的特徵

在這篇題為Unicorn: Continual learning with a universal, off-policy agent的論文中,DeepMind的研究人員Daniel J. Mankowitz等人提出了一種新型的獨角獸智慧體架構,可以顯示上述這三種效能。

獨角獸架構有三個顯著特徵:

(1)它是一種用單一網路同時學習多工中價值函式的新方法

(2)同時,利用樣例有效的off-policy更新通過任務分享經驗

(3)當然,還結合了最先進的並行智慧體架構,有效擴大經驗的生成和學習

下圖顯示的是研究人員提出的持續學習領域。在圖中可以看到,智慧體在滿是物體的豐富的3D環境中進行導航,並且藉助了第一人稱視角的視覺輸入。

640?wx_fmt=png

 上圖指的是持續學習領域:在DM Lab的豐富環境中(左圖)找到並按特定順序拾取鑰匙、鎖和箱子(右圖)的表現,偏離特定順序將會被重置(虛線)。下圖指的是獨角獸的表現:和最終在最佳基線(glutton虛線)上的表現相比,研究人員提出的方法快速勝任了四個子任務。相對能力在分階段增強,從簡單(鑰匙)到困難(箱子),最困難的任務能力增長幅度最大

使這個領域變得最為挑戰的是,物體需要以特定的順序收集起來。例如,箱子只有在智慧體已經收集了鑰匙、鎖和門的情況下才起作用。

這就意味著,在大多數探索任務中,箱子這種高度依賴型任務的反饋非常稀疏,並且不能直接學習。

幸運的是,獨角獸智慧體始終在解決領域內的這類問題,並且通過分享經驗和重新利用任務中的表現和技能輸出基線。

640?wx_fmt=png

想了解更多實驗過程,可移步論文原文~地址給你:

https://arxiv.org/abs/1802.08294

作者系網易新聞·網易號“各有態度”簽約作者


加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進群請加小助手微訊號qbitbot5,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關文章