騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

遊資網發表於2019-12-25
騰訊又圍繞王者榮耀AI“絕悟”發表了新論文,已經被AI頂會AAAI 2020收錄。
騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

最新訊息,騰訊又圍繞王者榮耀AI“絕悟”發表了新論文,已經被AI頂會AAAI 2020收錄。

這是繼今年8月份絕悟在5v5比賽中擊敗職業戰隊後,騰訊首次披露AI背後的技術細節。

騰訊研究人員表示,將AI執行動作時間限制在業餘高手玩家相同的水平上(間隔為133ms),絕悟已經能夠單挑頂級職業選手,並在其擅長的英雄上實現碾壓,15場比賽中職業選手只贏了1場,並且最多堅持不到8分鐘。

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

在今年8月份的公開測試中,這一王者榮耀1V1的AI與大量頂級業餘玩家進行了2100場對戰。AI勝率達到99.81%。

在貂蟬(法師)、狄仁傑(射手)、花木蘭(上單/戰士)、露娜(打野/刺客)、魯班(射手)等英雄上,勝率都是100%。

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

如此AI是怎麼訓練出來的?我們且看騰訊最新論文中披露的最新細節。

30小時達到王者水平,70小時比肩職業玩家

首先需要指明的是,騰訊的這篇新論文關注的是 1v1 遊戲AI,並不是 5v5 遊戲AI。

研究人員在論文中解釋稱,後者更注重所有智慧體的團隊合作策略,而不是單個智慧體的動作決策。

考慮到這一點,1v1遊戲更適合用來研究遊戲中的複雜動作決策問題,也能夠更加全面系統的研究遊戲 AI 智慧體的構建。

AI的整體架構一共分為4個模組:強化學習學習器(RL Learner)、人工智慧伺服器(AI Server)、分發模組(Dispatch Module)和記憶池(Memory Pool)。

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

這是一種高可擴充套件低耦合的系統架構,可以用來構建資料並行化。主要考慮的是複雜智慧體的動作決策問題可能引入高方差的隨機梯度,所以有必要採用較大的批大小以加快訓練速度。

其中,AI伺服器實現的是 AI 模型與環境的互動方式。分發模組是用於樣本收集、壓縮和傳輸的工作站。記憶池是資料儲存模組,能為 RL 學習器提供訓練例項。

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

這些模組是分離的,可靈活配置,從而讓研究者可將重心放在演算法設計和環境邏輯上。這樣的系統設計也可用於其它的多智慧體競爭問題。

在強化學習學習器中,他們還實現了一個 actor-critic 神經網路,用於建模1v1 遊戲中的動作依賴關係。

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

為了應對遊戲中的多個場景決策,研究人員們還提出了一系列演算法策略,來實現更高效率的訓練:

  • 為了幫助AI在戰鬥中選擇目標,引入目標註意力機制;
  • 為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
  • 用於構建多標籤近端策略優化(PPO)目標,採用動作依賴關係的解耦;
  • 為了引導強化學習過程中的探索,開發了基於遊戲知識的剪枝方法;
  • 為了確保使用大和有偏差的資料批進行訓練時的收斂性,改進 PPO 演算法提出dual-clip PPO,其示意圖如下所示:


騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

研究人員在論文中指出,基於這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 核心,訓練一天相當於人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業玩家,其表現要顯著優於多種baseline方法。

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

而且如前所述,在與人類選手交戰的測試中,獲得了非常亮眼的成績。

來自騰訊AI Lab和天美工作室,還在打造開放平臺

騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘

與2018年12月份釋出的王者榮耀AI論文作者單位相比,這次多了“天美工作室”——王者榮耀的開發團隊。

除了研究,騰訊AI Lab與王者榮耀還將聯合推出“開悟”AI+遊戲開放平臺。

王者榮耀會開放遊戲資料、遊戲核心叢集(Game Core)和工具,騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構共同推進相關AI研究,並通過平臺定期測評,來展示多智慧體決策研究實力。

目前“開悟”平臺已啟動高校內測,預計在2020年5月全面開放高校測試,並且在測試環境上,支援1v1,5v5等多種模式。

騰訊透露,計劃在2020年12月舉辦首屆AI在王者榮耀應用的水平測試。

作者:乾明
來源:量子位
地址:https://mp.weixin.qq.com/s/Mdq9fL10Zcjs_z3PeqtN9Q


相關文章