DeepMind新智慧體架構Unicorn:持續學習能力勝過多個基準智慧體
安妮 編譯自 arXiv
量子位 出品 | 公眾號 QbitAI
出於未知原因,DeepMind為自己研究起的名字總飽含詩意,在學術界中顯得尤為畫風清奇。
比如“彩虹”?,比如“獨角獸”?。
前者,是去年10月DeepMind投遞到AAAI 2018的六種DQN混血論文;後者,是我們今天要介紹的主角。
近日,DeepMind提出了命名為“獨角獸(Unicorn)”的智慧體架構,它展示出厲害的持續學習能力,已經勝過很多基準智慧體。
這是怎樣實現的呢?
研究人員表示,獨角獸通過利用並行的off-policy學習策略,統一表示和學習多種策略,才達到了這樣的表現。
△ DeepMind曾經的研究——一個會跑酷的小人
何為持續學習?
持續學習(Continual learning),指的是智慧體藉助已經獲得的知識和技能,從經驗中學習持續的任務流的一種方法。
這種設定的主要特點是,它有潛力成為一個完全獨立的智慧體,可以增強構建自己的能力,解決豐富和複雜環境中的挑戰,而無需人類提供的資料集、任務邊界或獎勵設定等的干預。
因為智慧體的能力在增長,所以它會去考慮複雜性持續增長的任務。理想的持續學習智慧體應該能:
(A)解決多項任務
(B)當任務相關時表現出協同效應
(C)處理任務之間深度依賴的結構
獨角獸的特徵
在這篇題為Unicorn: Continual learning with a universal, off-policy agent的論文中,DeepMind的研究人員Daniel J. Mankowitz等人提出了一種新型的獨角獸智慧體架構,可以顯示上述這三種效能。
獨角獸架構有三個顯著特徵:
(1)它是一種用單一網路同時學習多工中價值函式的新方法
(2)同時,利用樣例有效的off-policy更新通過任務分享經驗
(3)當然,還結合了最先進的並行智慧體架構,有效擴大經驗的生成和學習
下圖顯示的是研究人員提出的持續學習領域。在圖中可以看到,智慧體在滿是物體的豐富的3D環境中進行導航,並且藉助了第一人稱視角的視覺輸入。
△ 上圖指的是持續學習領域:在DM Lab的豐富環境中(左圖)找到並按特定順序拾取鑰匙、鎖和箱子(右圖)的表現,偏離特定順序將會被重置(虛線)。下圖指的是獨角獸的表現:和最終在最佳基線(glutton虛線)上的表現相比,研究人員提出的方法快速勝任了四個子任務。相對能力在分階段增強,從簡單(鑰匙)到困難(箱子),最困難的任務能力增長幅度最大
使這個領域變得最為挑戰的是,物體需要以特定的順序收集起來。例如,箱子只有在智慧體已經收集了鑰匙、鎖和門的情況下才起作用。
這就意味著,在大多數探索任務中,箱子這種高度依賴型任務的反饋非常稀疏,並且不能直接學習。
幸運的是,獨角獸智慧體始終在解決領域內的這類問題,並且通過分享經驗和重新利用任務中的表現和技能輸出基線。
想了解更多實驗過程,可移步論文原文~地址給你:
https://arxiv.org/abs/1802.08294
作者系網易新聞·網易號“各有態度”簽約作者
— 完 —
加入社群
量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微訊號qbitbot5,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 【強化學習】不用地圖如何導航?DeepMind提出新型雙路徑強化學習「智慧體」架構強化學習地圖智慧體架構
- GAIA: 一個嚴苛的智慧體基準AI智慧體
- 基礎架構體系中介軟體學習架構
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 新媒體運營要具備什麼能力?新媒體運營學習能力
- 牛津教授吐槽DeepMind心智神經網路,還推薦了這些多智慧體學習論文神經網路智慧體
- 瓜子智慧線上客服整體架構架構
- 多 AI 智慧體系統- AI 智慧體的 6 個關鍵要素AI智慧體
- DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習強化學習智慧體
- 持續學習
- Java架構師 - 基礎篇(持續更新中)Java架構
- JavaEE體系架構概述(續)Java架構
- 【智慧製造】智慧工廠整體規劃實施與方案架構;智慧工廠頂層設計與智慧製造能力測評...架構
- DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下遊戲AI智慧體
- 架構學習-多工架構
- AI 大戰 AI,一個深度強化學習多智慧體競賽系統AI強化學習智慧體
- 如何在TensorFlow 2.0中構建強化學習智慧體強化學習智慧體
- ICLR 2020 多智慧體強化學習論文總結ICLR智慧體強化學習
- 北大領銜,多智慧體強化學習研究登上Nature子刊智慧體強化學習
- 持續測試企業架構架構
- 雲鯨持續創新構築技術護城河,不斷突破講好智慧清潔新故事
- 伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案強化學習智慧體
- 提升AI智慧化水平,打造智慧新體驗AI
- 軟體測試過程的持續改進
- 持續整合、持續交付和持續部署有什麼區別?0基礎學習linux技能Linux
- 網際網路集體智慧如何戰勝AI?AI
- 智慧化時代如何做好持續整合--智慧構建與智慧測試雙引擎 - 朱華亮
- IBM推出可持續發展軟體新能力,幫助企業實現高效精準的範圍3溫室氣體核算及報告IBM
- OpenAI官方開源多智慧體框架「Swarm」,並不是我想要的多智慧體框架OpenAI智慧體框架Swarm
- 數字大腦持續提升AIGC能力,加速行業智慧化變革AIGC行業
- 分散式機器學習、聯邦學習、多智慧體的區別和聯絡分散式機器學習聯邦學習智慧體
- 智慧手錶持續創新:銷量快速增長(附下載)
- HCR&NPD:智慧手機時代是持續創新的時代
- 怎樣學習一個新的架構技術架構
- 細說IOS工程架構(持續更新)iOS架構
- OpenAI官方開源多智慧體框架「Swarm」,並不是我想要的多智慧體框架PIOpenAI智慧體框架Swarm
- 小紅書廣告智慧創意能力構建過程詳解
- 新媒體運營加班多嗎?新媒體與互動設計學習