Dopamine - 靈活、可重複的強化學習研究新框架

Google_Developers發表於2018-09-05

文 / 研究軟體開發人員 Pablo Samuel Castro 和Google Brain Team 研究科學家 Marc G. Bellemare

來源 | 谷歌開發者 公眾號

在過去的幾年中,強化學習(RL)研究取得了多方面的重大進展。 這些進步使 AI 智慧體能夠在一些遊戲上超越人類 – 其中,令人矚目的例子有:DeepMind 攻破 Atari 遊戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 AlphaGo Zero,以及在 Dota2 對戰人類職業玩家的 Open AI Five。具體而言,在 DQN 中引入重播記憶(replay memories)使智慧體能夠利用先前的經驗,大規模的分散式培訓使之能將學習過程分配給多個工作執行緒,分散式方法允許智慧體模擬完整的分佈建模,從而學習瞭解整個格局,而不僅僅侷限於期望值。 這種進步至關重要,因為催生這些進步的演算法還適用於其他領域,如機器人技術(請參考我們最近的關於對機器人的操控以及教機器人學會觀察進行自我適應的研究報導)。

取得此類進展常常需要在設計上快速迭代,這通常並沒有一個明確的方向,以及打破現有方法的構架。 然而,大多數現有的強化學習框架無法同時兼具靈活性和穩定性,研究人員難以有效地迭代強化學習,因此探索新的研究方向可能在短期內無法獲得明顯的效益。 再者,在現有框架基礎上覆制結果往往太過耗時,從而導致後續的科學再現性問題。

今天,我們推出了一款新的基於 Tensorflow 的框架,旨在為新手和經驗豐富的強化學習研究人員提供兼具靈活性,穩定性和可重複性的新工具。 該框架的靈感來源於大腦中獎勵-動機行為的主要成分 “多巴胺受體”,這反映了神經科學與強化學習研究之間的強大的歷史聯絡。這個平臺旨在推動重大發現的推測性研究。 另外,我們還發布了一組該框架的教學 colabs。 注: colabs 連結 github.com/google/dopa…

易用性 簡潔和清晰是我們在該框架的設計過程中考量的兩個關鍵因素。 我們提供的程式碼很緊湊(大約 15 個 Python 檔案),並且有詳細的文件記錄。通過專注於街機模式學習環境(ALE 是一個成熟的,已經被充分理解的基準)和四個基於價值的智慧體來實現:DQN,C51,精心設計的簡化版的 Rainbow 智慧體,以及在上個月的國際機器學習大會(ICML)上剛剛釋出的 IQN(Implicit Quantile Network)智慧體。 我們希望這種簡明的特效能夠使研究人員輕鬆瞭解智慧體的內部運作原理,並快速嘗試各種新的想法。

可重複性 我們對強化學習研究中的可重複性尤為關注。 為此,我們為程式碼提供完整的測試覆蓋; 這些測試詳見文件附表。 此外,我們的實驗框架遵循了 Machado等人(2018)關於利用街機學習環境(ALE)標準化經驗評估裡的推薦方法。

基準測試 對於新手研究人員來說,能夠根據既定方法快速對自己的想法進行基準測試是至關重要的。 為此,我們在 ALE 學習環境支援的 60 款遊戲中提供四個智慧體的完整訓練資料,格式為 Python pickle 檔案(對於使用我們的框架訓練的智慧體)和 JSON 資料檔案(用於對比其他框架訓練的智慧體); 我們還提供了一個網站,方便研究人員可以快速檢視所有 60 款遊戲中提供的智慧體的訓練執行情況。 下面我們將展示在 ALE 學習環境下支援的 Atari 2600 遊戲之一 Seaquest 上的 4 個智慧體的訓練情況。

Dopamine - 靈活、可重複的強化學習研究新框架
4 個智慧體在 Seaquest 上訓練執行。x 軸表示迭代,其中每次迭代是 100 萬個遊戲幀(實時遊戲 4.5 小時); y 軸是每次遊戲獲取的平均分。 陰影區域表示 5 個獨立執行的置信區間

我們還提供這些智慧體訓練的深度網路,原始統計日誌以及用於 Tensorboard 視覺化的 Tensorflow 事件檔案。 這些都可以在我們網站的下載區找到。 注:Tensorboard 連結 www.tensorflow.org/guide/summa… 下載區連結 github.com/google/dopa…

我們希望我們的框架的靈活性和易用效能夠幫助研究人員嘗試新的想法,包括漸進式和激進式。 我們已積極將它應用於各類研究,發現它可以使很多想法得到快速靈活地迭代。 我們期待看到大社群使用這一框架,發掘無限可能。 請在我們的 github repo 中檢視和使用,別忘了告訴我你的想法! 注:github repo 連結 github.com/google/dopa…

鳴謝 與谷歌的多次合作,使我們這個專案得以實現。 核心團隊包括 Marc G. Bellemare,Pablo Samuel Castro,Carles Gelada,Subhodeep Moitra 和 Saurabh Kumar。 特別感謝 Sergio Guadamarra,Ofir Nachum,Yifan Wu,Clare Lyle,Liam Fedus,Kelvin Xu,Emilio Parisoto,Hado van Hasselt,Georg Ostrovski 和 Will Dabney 以及其他協助我們測試的 Google 工作人員。

相關文章