OpenAI釋出大型強化深度學習模擬器Neural MMO,AI適者生存擇最優

weixin_34319999發表於2019-03-05

今天,OpenAI釋出了一款”大型多角色”虛擬訓練場景遊戲,把AI代理放進一個類似於RPG(角色扮演遊戲)的模擬場景中,AI們會互相競爭,通過戰爭來搶奪有限的資源,從而得到優化。

“大型多人線上遊戲(MMO)模擬了眾多玩家在一個持續、廣闊的環境中競爭的大型生態系統,”OpenAI在部落格文章中寫道。“代理和物種多樣化會帶來更好的探索和更高的整體能力。”

GitHub地址:https://github.com/openai/neural-mmo

Neural MMO的特點

現在,多代理環境已經成為深度強化學習研究很常用的一個實驗平臺,但是卻存在很多問題和侷限性,已有的模擬環境有些雖然夠複雜但範圍太小,有些雖然開放但過於簡單。為了解決這些問題,OpenAI研發並開放了Neural MMO。

和其他系統相比,Neural MMO具有以下特點:

  • 永續性:代理無需環境重置,可在其他學習代理存在的情況下同時學習。策略必須考慮長時間的視野,並適應其他代理行為的潛在快速變化。
  • 規模:環境支援大量可變數量的代理。實驗考慮到了100個併發伺服器中每個伺服器中多達128個併發代理長達100M的生命週期。
  • 效率:包含可以比較代理效能表現的baseline(在100多個世界中訓練),且計算開銷相對較低,訓練只需要一個桌面CPU。
  • 擴充套件:Neural MMO目前的核心功能包括基於地圖的地形程式生成,食物和水覓食系統以及戰略戰鬥系統。未來可能會進行開源驅動的擴充套件。

Neural MMO環境中會隨機生成AI代理,其中包含自動生成的預定大小的地圖。一些地圖是可穿越的,如“森林”(承載食物)和“草”,而其他地圖則不能穿越(如水和石頭)。

\"image\"

OpenAI 使用神經MMO來訓練AI系統,通過獎勵代理生命週期來進化,也就是說,AI會讓自己活的儘量長久,代理之間彼此互動的時間越長,就可以更好地完成某些任務,而且增加併發代理的最大數量可以更好地進行探索。有趣的是,他們還發現增加代理的規模會促使它們進入地圖的不同部分,而在較廣闊的環境中訓練的代理“始終”勝過只在較小環境中經過訓練的AI。

  • 輸入:代理觀察以各自位置為中心的地圖,包括地形型別和佔用代理的選擇屬性(健康、食物、水和位置)。
  • 輸出:代理按時間戳(或刻度)進行一次移動和一次攻擊,來尋找水和食物資源,並和其他代理一起參與戰鬥。

\"image\"

平臺為價值功能、地圖圖塊到達分佈以及學習策略的代理之間依賴性提供了程式環境生成器和視覺化工具。Baseline經過100多個世界的policy梯度訓練。

模型:適者生存

為了進行一個簡單的baseline測試,我們使用vanilla策略梯度訓練一個小型、完全連線的架構,其中值函式基線和獎勵作為唯一的增強功能。我們不是讓代理通過完成特定任務獲得獎勵,而是讓代理們活得越久越好,活得越久的代理會得到優化,獲得更高分數。我們通過計算所有玩家的最大值來將可變長度觀測值(例如周圍玩家數量)轉換為單個長度向量(OpenAI Five也使用了這個技巧)。源版本釋出包括我們基於PyTorch和Ray的完整分散式訓練實現。

評估結果

\"image\"

訓練的最大群體數量在(16,32,64,128)之間變化。為了提高效率,政策由16個代理共享。在測試時,我們將在實驗中結對學習的代理合並,並以固定的群體數量評估生命週期。我們僅通過覓食進行評估,因為戰鬥策略難以直接進行比較。在較大種群中經過訓練的代理表現總是更好。

“由於AI不能超越自己的併發代理(即與他們共有權重的代理),它們傾向於尋找包含足夠資源以維持種群發展的地圖區域,”OpenAI寫道。“在自然界中,動物之間會通過向其他區域擴散以避免競爭。我們觀察到,地圖覆蓋範圍會隨著併發代理數量的增加而增加。僅僅因為其他AI的存在,就已經刺激AI去學會探索了。“

但值得注意的是,這並不是首創。12月,OpenAI釋出了CoinRun,這是一款經典的平臺遊戲,旨在衡量代理將經驗遷移到不熟悉場景的能力。8月,挪威阿德大學的研究人員開放了一個實時戰略遊戲人工智慧訓練環境

除了模擬學習環境之外,資料科學家還在《星際爭霸 II》、《蒙特祖瑪的復仇》、《刀塔 2》、《雷神之錘III》和其他遊戲中設定了AI,為的是某一天能夠開發出能夠診斷疾病、預測複雜蛋白質結構和分割CT掃描的系統。“這些遊戲是我們測試演算法的一個很好的試驗場地,”DeepMind聯合創始人Demis Hassabis表示。“最終,我們的目標是開發可以遷移到現實世界的演算法,以解決真正具有挑戰性的問題,並幫助這些領域的專家。”

參考連結:
https://venturebeat.com/2019/03/04/openai-launches-neural-mmo-a-massive-reinforcement-learning-simulator/
https://blog.openai.com/neural-mmo/

\"image\"

相關文章