OpenAI釋出大型強化深度學習模擬器Neural MMO,AI適者生存擇最優
今天,OpenAI釋出了一款”大型多角色”虛擬訓練場景遊戲,把AI代理放進一個類似於RPG(角色扮演遊戲)的模擬場景中,AI們會互相競爭,通過戰爭來搶奪有限的資源,從而得到優化。
“大型多人線上遊戲(MMO)模擬了眾多玩家在一個持續、廣闊的環境中競爭的大型生態系統,”OpenAI在部落格文章中寫道。“代理和物種多樣化會帶來更好的探索和更高的整體能力。”
GitHub地址:https://github.com/openai/neural-mmo
Neural MMO的特點
現在,多代理環境已經成為深度強化學習研究很常用的一個實驗平臺,但是卻存在很多問題和侷限性,已有的模擬環境有些雖然夠複雜但範圍太小,有些雖然開放但過於簡單。為了解決這些問題,OpenAI研發並開放了Neural MMO。
和其他系統相比,Neural MMO具有以下特點:
- 永續性:代理無需環境重置,可在其他學習代理存在的情況下同時學習。策略必須考慮長時間的視野,並適應其他代理行為的潛在快速變化。
- 規模:環境支援大量可變數量的代理。實驗考慮到了100個併發伺服器中每個伺服器中多達128個併發代理長達100M的生命週期。
- 效率:包含可以比較代理效能表現的baseline(在100多個世界中訓練),且計算開銷相對較低,訓練只需要一個桌面CPU。
- 擴充套件:Neural MMO目前的核心功能包括基於地圖的地形程式生成,食物和水覓食系統以及戰略戰鬥系統。未來可能會進行開源驅動的擴充套件。
Neural MMO環境中會隨機生成AI代理,其中包含自動生成的預定大小的地圖。一些地圖是可穿越的,如“森林”(承載食物)和“草”,而其他地圖則不能穿越(如水和石頭)。
OpenAI 使用神經MMO來訓練AI系統,通過獎勵代理生命週期來進化,也就是說,AI會讓自己活的儘量長久,代理之間彼此互動的時間越長,就可以更好地完成某些任務,而且增加併發代理的最大數量可以更好地進行探索。有趣的是,他們還發現增加代理的規模會促使它們進入地圖的不同部分,而在較廣闊的環境中訓練的代理“始終”勝過只在較小環境中經過訓練的AI。
- 輸入:代理觀察以各自位置為中心的地圖,包括地形型別和佔用代理的選擇屬性(健康、食物、水和位置)。
- 輸出:代理按時間戳(或刻度)進行一次移動和一次攻擊,來尋找水和食物資源,並和其他代理一起參與戰鬥。
平臺為價值功能、地圖圖塊到達分佈以及學習策略的代理之間依賴性提供了程式環境生成器和視覺化工具。Baseline經過100多個世界的policy梯度訓練。
模型:適者生存
為了進行一個簡單的baseline測試,我們使用vanilla策略梯度訓練一個小型、完全連線的架構,其中值函式基線和獎勵作為唯一的增強功能。我們不是讓代理通過完成特定任務獲得獎勵,而是讓代理們活得越久越好,活得越久的代理會得到優化,獲得更高分數。我們通過計算所有玩家的最大值來將可變長度觀測值(例如周圍玩家數量)轉換為單個長度向量(OpenAI Five也使用了這個技巧)。源版本釋出包括我們基於PyTorch和Ray的完整分散式訓練實現。
評估結果
訓練的最大群體數量在(16,32,64,128)之間變化。為了提高效率,政策由16個代理共享。在測試時,我們將在實驗中結對學習的代理合並,並以固定的群體數量評估生命週期。我們僅通過覓食進行評估,因為戰鬥策略難以直接進行比較。在較大種群中經過訓練的代理表現總是更好。
“由於AI不能超越自己的併發代理(即與他們共有權重的代理),它們傾向於尋找包含足夠資源以維持種群發展的地圖區域,”OpenAI寫道。“在自然界中,動物之間會通過向其他區域擴散以避免競爭。我們觀察到,地圖覆蓋範圍會隨著併發代理數量的增加而增加。僅僅因為其他AI的存在,就已經刺激AI去學會探索了。“
但值得注意的是,這並不是首創。12月,OpenAI釋出了CoinRun,這是一款經典的平臺遊戲,旨在衡量代理將經驗遷移到不熟悉場景的能力。8月,挪威阿德大學的研究人員開放了一個實時戰略遊戲人工智慧訓練環境。
除了模擬學習環境之外,資料科學家還在《星際爭霸 II》、《蒙特祖瑪的復仇》、《刀塔 2》、《雷神之錘III》和其他遊戲中設定了AI,為的是某一天能夠開發出能夠診斷疾病、預測複雜蛋白質結構和分割CT掃描的系統。“這些遊戲是我們測試演算法的一個很好的試驗場地,”DeepMind聯合創始人Demis Hassabis表示。“最終,我們的目標是開發可以遷移到現實世界的演算法,以解決真正具有挑戰性的問題,並幫助這些領域的專家。”
參考連結:
https://venturebeat.com/2019/03/04/openai-launches-neural-mmo-a-massive-reinforcement-learning-simulator/
https://blog.openai.com/neural-mmo/
相關文章
- OpenAI釋出Neural MMO :大型多智慧體遊戲環境OpenAI智慧體遊戲
- Keras+OpenAI強化學習實踐:深度Q網路KerasOpenAI強化學習
- 深度學習及深度強化學習研修深度學習強化學習
- 新的深度學習優化器Ranger:RAdam + LookAhead強強結合深度學習優化Ranger
- 深度學習及深度強化學習應用深度學習強化學習
- 深度學習+深度強化學習+遷移學習【研修】深度學習強化學習遷移學習
- 深度強化學習揭秘強化學習
- 深度強化學習day01初探強化學習強化學習
- OpenAI 提出強化學習近端策略優化,可替代策略梯度法OpenAI強化學習優化梯度
- 百度正式釋出PaddlePaddle深度強化學習框架PARL強化學習框架
- 剛剛,OpenAI震撼釋出o1大模型!強化學習突破LLM推理極限OpenAI大模型強化學習
- 深度強化學習的人工智慧在遊戲中的運用:遊戲AI入門及AI優化指南強化學習人工智慧遊戲AI優化
- 強化學習的數學原理-03貝爾曼最優公式強化學習公式
- 乞丐模擬器Hobo: Tough Life Mac都市生存模擬遊戲Mac遊戲
- [AI開發]深度學習如何選擇GPU?AI深度學習GPU
- 《深度強化學習》手稿開放了!強化學習
- 從Win8預覽版的釋出來選擇最合適的虛擬機器軟體薦虛擬機
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- AI 大戰 AI,一個深度強化學習多智慧體競賽系統AI強化學習智慧體
- MySQL學習之影響優化器選擇索引因素MySql優化索引
- 最強Android模擬器genymotion的安裝與配置Android
- 深度學習、強化學習核心技術實戰深度學習強化學習
- 關於強化學習、深度學習deeplearning研修強化學習深度學習
- 走近流行強化學習演算法:最優Q-Learning強化學習演算法
- OpenAI公佈強化學習新演算法,可控制複雜機器人OpenAI強化學習演算法機器人
- GPU虛擬機器建立時間深度優化GPU虛擬機優化
- 深度強化學習核心技術實戰強化學習
- 2款AI晶片、深度學習框架MindSpore:華為史無前例集中釋出AI戰略AI晶片深度學習框架
- 《大型網站SEO優化實踐》學習分享網站優化
- 深度學習 - 常用優化演算法深度學習優化演算法
- 深度學習中的優化方法(二)深度學習優化
- 深度學習中的優化方法(一)深度學習優化
- 深度學習運算元優化-FFT深度學習優化FFT
- 機器學習、深度學習、強化學習課程超級大列表!機器學習深度學習強化學習
- AI學習筆記——Tensorflow中的Optimizer(優化器)AI筆記優化
- 楊強:深度學習、強化學習、遷移學習的結合及應用進展深度學習強化學習遷移學習
- 【強化學習】強化學習/增強學習/再勵學習介紹強化學習
- OpenAI 釋出適用於 .NET 庫的穩定版本OpenAI