騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘
騰訊又圍繞王者榮耀AI“絕悟”發表了新論文,已經被AI頂會AAAI 2020收錄。
最新訊息,騰訊又圍繞王者榮耀AI“絕悟”發表了新論文,已經被AI頂會AAAI 2020收錄。
這是繼今年8月份絕悟在5v5比賽中擊敗職業戰隊後,騰訊首次披露AI背後的技術細節。
騰訊研究人員表示,將AI執行動作時間限制在業餘高手玩家相同的水平上(間隔為133ms),絕悟已經能夠單挑頂級職業選手,並在其擅長的英雄上實現碾壓,15場比賽中職業選手只贏了1場,並且最多堅持不到8分鐘。
在今年8月份的公開測試中,這一王者榮耀1V1的AI與大量頂級業餘玩家進行了2100場對戰。AI勝率達到99.81%。
在貂蟬(法師)、狄仁傑(射手)、花木蘭(上單/戰士)、露娜(打野/刺客)、魯班(射手)等英雄上,勝率都是100%。
如此AI是怎麼訓練出來的?我們且看騰訊最新論文中披露的最新細節。
30小時達到王者水平,70小時比肩職業玩家
首先需要指明的是,騰訊的這篇新論文關注的是 1v1 遊戲AI,並不是 5v5 遊戲AI。
研究人員在論文中解釋稱,後者更注重所有智慧體的團隊合作策略,而不是單個智慧體的動作決策。
考慮到這一點,1v1遊戲更適合用來研究遊戲中的複雜動作決策問題,也能夠更加全面系統的研究遊戲 AI 智慧體的構建。
AI的整體架構一共分為4個模組:強化學習學習器(RL Learner)、人工智慧伺服器(AI Server)、分發模組(Dispatch Module)和記憶池(Memory Pool)。
這是一種高可擴充套件低耦合的系統架構,可以用來構建資料並行化。主要考慮的是複雜智慧體的動作決策問題可能引入高方差的隨機梯度,所以有必要採用較大的批大小以加快訓練速度。
其中,AI伺服器實現的是 AI 模型與環境的互動方式。分發模組是用於樣本收集、壓縮和傳輸的工作站。記憶池是資料儲存模組,能為 RL 學習器提供訓練例項。
這些模組是分離的,可靈活配置,從而讓研究者可將重心放在演算法設計和環境邏輯上。這樣的系統設計也可用於其它的多智慧體競爭問題。
在強化學習學習器中,他們還實現了一個 actor-critic 神經網路,用於建模1v1 遊戲中的動作依賴關係。
為了應對遊戲中的多個場景決策,研究人員們還提出了一系列演算法策略,來實現更高效率的訓練:
- 為了幫助AI在戰鬥中選擇目標,引入目標註意力機制;
- 為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
- 用於構建多標籤近端策略優化(PPO)目標,採用動作依賴關係的解耦;
- 為了引導強化學習過程中的探索,開發了基於遊戲知識的剪枝方法;
- 為了確保使用大和有偏差的資料批進行訓練時的收斂性,改進 PPO 演算法提出dual-clip PPO,其示意圖如下所示:
研究人員在論文中指出,基於這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 核心,訓練一天相當於人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業玩家,其表現要顯著優於多種baseline方法。
而且如前所述,在與人類選手交戰的測試中,獲得了非常亮眼的成績。
來自騰訊AI Lab和天美工作室,還在打造開放平臺
與2018年12月份釋出的王者榮耀AI論文作者單位相比,這次多了“天美工作室”——王者榮耀的開發團隊。
除了研究,騰訊AI Lab與王者榮耀還將聯合推出“開悟”AI+遊戲開放平臺。
王者榮耀會開放遊戲資料、遊戲核心叢集(Game Core)和工具,騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構共同推進相關AI研究,並通過平臺定期測評,來展示多智慧體決策研究實力。
目前“開悟”平臺已啟動高校內測,預計在2020年5月全面開放高校測試,並且在測試環境上,支援1v1,5v5等多種模式。
騰訊透露,計劃在2020年12月舉辦首屆AI在王者榮耀應用的水平測試。
作者:乾明
來源:量子位
地址:https://mp.weixin.qq.com/s/Mdq9fL10Zcjs_z3PeqtN9Q
相關文章
- 不服SOLO:騰訊絕悟AI擊敗王者榮耀頂尖職業玩家,論文入選AAAI,未來將開源AI
- 10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNaAST星際爭霸2
- OPPO R15王者榮耀體驗評測 OPPO R15玩王者榮耀卡嗎?
- 《王者榮耀》主策劃Xavier分享騰訊遊戲10年在職經歷遊戲
- 正式入主!“狼嘯山城 競啟榮耀” 英超狼隊登陸KPL王者榮耀職業聯賽
- 騰訊《王者榮耀》的音樂是怎麼製作出來的?
- 騰訊禁止今日頭條直播王者榮耀 網友:吃相難看!
- 騰訊天美GDC分享:《王者榮耀》8年音訊設計回顧音訊
- 王者榮耀「冰山下」
- 《王者榮耀》開學月交易額達659萬元 騰訊系手遊交易單價高
- Qualcomm、vivo、騰訊王者榮耀和騰訊AI Lab強強聯合,共同推動人工智慧向終端側邁進AI人工智慧
- 王者榮耀職業聯賽(KPL)2020年春季賽開賽時間公告
- 王者榮耀墨子技能解析與使用技巧,王者榮耀墨子大招使用技巧
- Sensor Tower:2023年3月騰訊《王者榮耀》吸金2.15億美元蟬聯榜首
- 王者榮耀小喬怎麼玩?王者榮耀小喬技能介紹和玩法攻略
- 王者榮耀李白該怎麼出裝?王者榮耀李白出裝及順序解析
- 王者榮耀“吃雞模式”玩法介紹 王者榮耀邊境突圍怎麼玩模式
- 2018王者榮耀KPL秋季賽賽程表 2018王者榮耀KPL秋季賽賽制
- 2020年《王者榮耀》職業賽事(KPL與KPLGT)春季賽開賽調整公告
- 騰訊第一季度總收入1080.65億元 《和平精英》、《王者榮耀》業績亮眼
- AI 玩王者榮耀狂上分!1 天訓練強度達人類 440 年,網友:已解除安裝AI
- 王者榮耀什麼英雄剋制嫦娥?王者榮耀這幾個英雄可以剋制嫦娥
- 王者榮耀羋月的玩法技巧 王者榮耀線霸羋月如何自爆一路?
- 王者榮耀鍾馗技能怎麼用?王者榮耀鍾馗連招怎麼連呢?
- 王者榮耀鍾馗閃現技能怎麼用?王者榮耀鍾馗技能的玩法技巧
- 《王者榮耀》想靠AI,做點兒改變未來的大事AI
- 王者榮耀怎麼賺錢(一)
- 《王者榮耀》:屬於自己的路
- python爬取王者榮耀皮膚Python
- 張一鳴尋找“王者榮耀”
- Sensor Tower:2022年5月騰訊《王者榮耀》全球收入2.68億美元 同比增長1.7%
- 開發有新意的短視訊,你就是榮耀王者
- 王者榮耀米萊狄出裝和銘文搭配 王者榮耀米萊狄技能介紹
- 王者榮耀盾山要怎麼剋制呢?王者榮耀盾山的剋制方法攻略
- 王者榮耀新英雄盾山怎麼玩攻略 王者榮耀新英雄盾山技能是什麼?
- 單日收入逼近《王者榮耀》,菲律賓人湧入區塊鏈最熱遊戲區塊鏈遊戲
- 我和《王者榮耀》的48小時
- 王者榮耀嫦娥打野出裝五級銘文搭配推薦,王者榮耀嫦娥打野怎麼出裝?