Google開源TensorFlow強化學習框架!

格伯納發表於2018-08-28

今天,谷歌宣佈開源基於 TensorFlow 的強化學習框架——Dopamine。

GitHub repo:https://github.com/google/dopamine


Google開源TensorFlow強化學習框架!


強化學習是一種人工智慧(AI)技術,它使用獎勵(或懲罰)來驅動agent朝著特定目標前進,比如之前大火的Alpha Go擊敗人類頂尖圍棋選手,還有在 Dota2 對戰人類職業玩家的Open AI Five。同時,強化學習也是DeepMind 的深度Q 網路(DQN)的核心部分,可以在多個workers 中分配學習,例如,在Atari 2600遊戲中實現“超人”效能。麻煩的是,強化學習框架需要時間來掌握一個目標,往往是不靈活的,也不夠穩定。

這就是谷歌提出替代方案的原因:基於TensorFlow的開源強化學習框架——Dopamine,從今天開始,它可以從Github獲得。

(https://github.com/google/dopamine/tree/master/docs#downloads)

谷歌研究人員表示,他們開源的這個 TensorFlow 強化學習框架強調三點: 靈活、穩定和可重複性。

受到主要元件之一大腦中獎勵動機行為行為的啟發,以及反映神經科學和強化學習的研究之間的聯絡,這個平臺的目的是使推測性研究推動根本性的發現,此版本還包括一組闡明如何使用整個框架的colabs。

易用性

為此,它包括了一套精心編寫的程式碼(15個Python檔案),專注於Arcade學習環境(一個用視訊遊戲評估AI技術的平臺)以及四種不同的機器學習模型:上述提到的深度Q 網路(DQN); C51; Rainbow agent的一個簡化版本; Implicit Quantile Network agent。清晰和簡潔是這個框架設計中的兩個關鍵考慮因素。

可重複性

為了實現強化學習的可重複性,程式碼在Arcade學習環境支援的60個遊戲中提供完整的測試覆蓋率和訓練資料(採用JSON和Python pickle格式),並遵循標準化結果以進行實證評估的最佳實踐。

基準測試

對於新的研究者來說,對自己的想法進行快速的基準測試是非常重要的。谷歌提供四個智慧體的完整訓練資料,包括ALE 支援的60 個遊戲,格式為Python pickle 檔案(對於使用谷歌框架訓練的智慧體)和JSON 資料檔案(用於對比其他框架訓練的智慧體)。谷歌還提供了一個網站,研究者可以使用該網站對所有提供智慧體在所有60 個遊戲中的訓練執行進行快速視覺化。

Google開源TensorFlow強化學習框架!

谷歌的4 個智慧體在Seaquest 上的訓練執行(Seaquest 是ALE 支援的Atari

除此之外,谷歌還推出了一個網站,允許開發人員將多個訓練中智慧體的執行情況快速視覺化。它還提供經過訓練的模型、原始統計日誌和TensorFlow event files,用於TensorBoard動態圖的繪製,TensorBoard是一個web應用視覺化套件。

Google開源TensorFlow強化學習框架!


“我們的希望是,我們的框架的靈活性和易用性將使研究人員能夠嘗試新的思想,無論是漸進的還是激進的。”作者Bellemare和Castro表示,“我們已經積極地將它用於我們的研究,而且發現它能夠使我們能夠靈活地快速迭代許多想法。我們很高興看到更多的社群可以應用這一框架。”

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31509949/viewspace-2213020/,如需轉載,請註明出處,否則將追究法律責任。

相關文章