DeepMind開源強化學習環境,場景靈活介面簡單,推特高贊
想搞強化學習,但算力門檻讓不少人望而卻步。
想想DeepMind訓練的通用棋類AI AlphaZero,碾壓一票同類選手,但堆砌了實驗室裡5064個TPU的算力。谷歌財大氣粗,但小實驗室就無法複製了。
沒有那麼大算力,也可以進行強化學習。
這一次,“專注強化學習一百年”的DeepMind又出手了,推出了一個小規模的強化學習環境,適合算力有限的實驗室。
這個強化學習環境名為Spriteworld的強化學習環境,由二維簡單形狀組成的環境,可以進行簡單移動。
DeepMind表示,別看這個場景簡單,但能為多個物體場景中提供儘可能多的靈活性,同時保留儘可能簡單的介面。
一經發出,DeepMind推特就收穫了400贊,網友大呼:Fascinating(太吸引人了)~
精靈世界
Spriteworld(精靈世界)是一個基於Python的強化學習環境,裡面各種不同的形狀都是一個精靈,可以在整個介面中自由移動。
這是一個多維度環境,形狀的 位置、 大小、 顏色、 角度和 速度都可以不斷變化,自由調節。
這個世界裡沒有物理引擎,所以預設情況下,裡面的“精靈”們會互相重疊,但不會互動或是碰撞。
研究人員演示了環境中可操作的3種任務,比如這個目標尋找任務,智慧體需要將目標精靈,也就是綠色正方形方塊帶到環境中心。
比如聚類任務,智慧體需要根據自身的顏色排列成簇。
在排列任務中,智慧體必須依據其自身顏色將目標精靈放置到目標位置,其中顏色與位置有一定的關聯關係。
DeepMind表示,可以通過動作空間引入各個精靈之間的互動,並且動作空間中的每個時間步可以同步給所有精靈。
舉個例子,比如DiscreteEmbodied動作空間實現了一種基本的物理形式,一個智慧體可以攜帶其他智慧體。
DeepMind強化學習資源集合
如果你想要研究強化學習,那麼DeepMind一定是你不可錯過的領路人。
這個“專注強化學習一百年”的研究機構,已經開放了大量的強化學習研究資源。
開源強化學習框架 多巴胺(Dopamine),基於基於TensorFlow,程式碼緊湊,簡潔可復現。
部落格:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
程式碼:
https://github.com/google/dopamine/tree/master/docs#downloads
開源強化學習庫 松露(TRFL),模組化,強調靈活度:如果把造智慧體想象成搭積木,許多關鍵的、常用的木塊都在這裡集合了。
並且庫裡面的元件,雖然來源各不相同,但都經過嚴密測試,因而相對可靠;並且只要一個API,對開發者比較友好。
GitHub地址:
https://github.com/deepmind/trfl/
開源強化學習研究環境 Control Suite,設計了一組有著標準化結構、可解釋獎勵的連續控制任務,還為強化學習Agent提供一組效能測試指標。
這些任務基於MoJoCo物理引擎,所用的語言是Python。DeepMind在GitHub上放出的原始碼中,就包含基於MoJoCo的Python強化學習環境,以及為MoJoCo提供Python繫結的軟體庫。
論文:
https://arxiv.org/pdf/1801.00690.pdf
程式碼:
https://github.com/deepmind/dm_control
開源分散式強化學習架構IMPALA,讓一個Agent學會多種技能。
IMPALA的靈感來自於熱門的A3C架構,後者使用多個分散式actor來學習agent的引數。在類似這樣的模型中,每個actor都使用策略引數的一個副本,在環境中操作。
程式碼:
https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30
開源強化學習訓練環境 Google Research Football,智慧體可以在這個宛若FIFA的世界裡自由踢球,學到更多踢球技巧。
用足球進行強化學習訓練,對AI來說更有挑戰性,不僅要能控球,還得搞懂傳球、角球這些概念,知道什麼時候會犯規吃紅牌黃牌,同時訓練出足夠機智的策略。
論文:
https://github.com/google-research/football/blob/master/paper.pdf?raw=True
程式碼:
https://github.com/google-research/football
傳送門
Github地址:
https://github.com/deepmind/spriteworld
推特介紹:
https://twitter.com/DeepMindAI/status/1163478904092471296
— 完 —
https://www.toutiao.com/i6727121687201972747/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2654292/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- DeepMind開源強化學習庫TRFL強化學習
- Python:靈活的開發環境Python開發環境
- 開源推薦,靈活多變功能強大的CMDB
- Dopamine - 靈活、可重複的強化學習研究新框架強化學習框架
- rust學習一、入門之搭建簡單開發環境Rust開發環境
- 強化學習實戰 | 自定義Gym環境強化學習
- 強化學習五大方面-環境強化學習
- DeepMind讓AI組隊踢足球學會“合作”,並開源訓練環境AI
- DeepMind開源強化學習遊戲框架,25款線上遊戲等你來挑戰強化學習遊戲框架
- [Android開源]:EasyGuideLayer: 這可能是最簡單、靈活、強大的頁面蒙層元件了!AndroidGUIIDE元件
- 【記錄】強化學習環境legged_gym配置強化學習
- docker 靈活的構建 PHP 環境DockerPHP
- DeepMind釋出神經網路、強化學習庫,網友:推動JAX發展神經網路強化學習
- Google開源TensorFlow強化學習框架!Go強化學習框架
- 靈活、輕便,阿里開源簡化GNN應用框架Graph-Learn阿里GNN框架
- webpack介面環境切換的配置-超簡單Web
- 強化學習-簡介強化學習
- Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser強化學習Go
- 強化學習實戰 | 自定義Gym環境之掃雷強化學習
- 前端快閃三:多環境靈活配置react前端React
- Unix環境高階程式設計——開源的標準化努力程式設計
- 更簡單靈活地管理 Ruby 版本
- 【Redis場景4】單機環境下秒殺問題Redis
- DeepMind用元強化學習框架探索多巴胺在學習過程中的作用強化學習框架
- 強化學習實戰 | 自定義Gym環境之井字棋強化學習
- 強化學習實戰 | 自定義gym環境之顯示字串強化學習字串
- 高瓴、藍馳領投靈初智慧,強化學習開啟具身智慧初紀元強化學習
- 【強化學習】不用地圖如何導航?DeepMind提出新型雙路徑強化學習「智慧體」架構強化學習地圖智慧體架構
- DeepMind 一次性開源 3 個新框架!深度強化學習應用落地即將迎來春天?框架強化學習
- 強化學習系列(1):簡介強化學習
- 簡潔/易用/靈活/高效->RecyclerView介面卡封裝View封裝
- 開源推薦|簡潔且強大的開源堡壘機OneTerm
- 【機器學習】深度學習開發環境搭建機器學習深度學習開發環境
- 有贊環境解決方案
- 基於 Prometheus 的監控神器,簡單靈活!Prometheus
- Java學習筆記—開源框架Netty的簡單使用Java筆記框架Netty
- Halo 開源專案學習(五):評論與點贊
- 學習靈巧的手部操作,強化學習賦能機械臂強化學習機械臂