DeepMind開源強化學習環境,場景靈活介面簡單,推特高贊

dicksonjyl560101發表於2019-08-20


想搞強化學習,但算力門檻讓不少人望而卻步。

想想DeepMind訓練的通用棋類AI AlphaZero,碾壓一票同類選手,但堆砌了實驗室裡5064個TPU的算力。谷歌財大氣粗,但小實驗室就無法複製了。

沒有那麼大算力,也可以進行強化學習。

這一次,“專注強化學習一百年”的DeepMind又出手了,推出了一個小規模的強化學習環境,適合算力有限的實驗室。

這個強化學習環境名為Spriteworld的強化學習環境,由二維簡單形狀組成的環境,可以進行簡單移動。

DeepMind表示,別看這個場景簡單,但能為多個物體場景中提供儘可能多的靈活性,同時保留儘可能簡單的介面。

一經發出,DeepMind推特就收穫了400贊,網友大呼:Fascinating(太吸引人了)~

DeepMind開源強化學習環境,場景靈活介面簡單,推特高贊

精靈世界

Spriteworld(精靈世界)是一個基於Python的強化學習環境,裡面各種不同的形狀都是一個精靈,可以在整個介面中自由移動。

這是一個多維度環境,形狀的 位置大小顏色角度速度都可以不斷變化,自由調節。

這個世界裡沒有物理引擎,所以預設情況下,裡面的“精靈”們會互相重疊,但不會互動或是碰撞。

研究人員演示了環境中可操作的3種任務,比如這個目標尋找任務,智慧體需要將目標精靈,也就是綠色正方形方塊帶到環境中心。

DeepMind開源強化學習環境,場景靈活介面簡單,推特高贊

比如聚類任務,智慧體需要根據自身的顏色排列成簇。

DeepMind開源強化學習環境,場景靈活介面簡單,推特高贊

在排列任務中,智慧體必須依據其自身顏色將目標精靈放置到目標位置,其中顏色與位置有一定的關聯關係。

DeepMind開源強化學習環境,場景靈活介面簡單,推特高贊

DeepMind表示,可以通過動作空間引入各個精靈之間的互動,並且動作空間中的每個時間步可以同步給所有精靈。

舉個例子,比如DiscreteEmbodied動作空間實現了一種基本的物理形式,一個智慧體可以攜帶其他智慧體。

DeepMind強化學習資源集合

如果你想要研究強化學習,那麼DeepMind一定是你不可錯過的領路人。

這個“專注強化學習一百年”的研究機構,已經開放了大量的強化學習研究資源。

開源強化學習框架 多巴胺(Dopamine),基於基於TensorFlow,程式碼緊湊,簡潔可復現。

部落格:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

程式碼:

https://github.com/google/dopamine/tree/master/docs#downloads

開源強化學習庫 松露(TRFL),模組化,強調靈活度:如果把造智慧體想象成搭積木,許多關鍵的、常用的木塊都在這裡集合了。

並且庫裡面的元件,雖然來源各不相同,但都經過嚴密測試,因而相對可靠;並且只要一個API,對開發者比較友好。

GitHub地址:

https://github.com/deepmind/trfl/

開源強化學習研究環境 Control Suite,設計了一組有著標準化結構、可解釋獎勵的連續控制任務,還為強化學習Agent提供一組效能測試指標。

這些任務基於MoJoCo物理引擎,所用的語言是Python。DeepMind在GitHub上放出的原始碼中,就包含基於MoJoCo的Python強化學習環境,以及為MoJoCo提供Python繫結的軟體庫。

論文:

https://arxiv.org/pdf/1801.00690.pdf

程式碼:

https://github.com/deepmind/dm_control

開源分散式強化學習架構IMPALA,讓一個Agent學會多種技能。

IMPALA的靈感來自於熱門的A3C架構,後者使用多個分散式actor來學習agent的引數。在類似這樣的模型中,每個actor都使用策略引數的一個副本,在環境中操作。

程式碼:

https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

開源強化學習訓練環境 Google Research Football,智慧體可以在這個宛若FIFA的世界裡自由踢球,學到更多踢球技巧。

用足球進行強化學習訓練,對AI來說更有挑戰性,不僅要能控球,還得搞懂傳球、角球這些概念,知道什麼時候會犯規吃紅牌黃牌,同時訓練出足夠機智的策略。

論文:

https://github.com/google-research/football/blob/master/paper.pdf?raw=True

程式碼:

https://github.com/google-research/football

傳送門

Github地址:

https://github.com/deepmind/spriteworld

推特介紹:

https://twitter.com/DeepMindAI/status/1163478904092471296

— 完 —


https://www.toutiao.com/i6727121687201972747/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2654292/,如需轉載,請註明出處,否則將追究法律責任。

相關文章