騰訊AI單挑碾壓王者榮耀職業玩家:人類15場只能贏1局,堅持不到8分鐘
騰訊又圍繞王者榮耀AI“絕悟”發表了新論文,已經被AI頂會AAAI 2020收錄。
最新訊息,騰訊又圍繞王者榮耀AI“絕悟”發表了新論文,已經被AI頂會AAAI 2020收錄。
這是繼今年8月份絕悟在5v5比賽中擊敗職業戰隊後,騰訊首次披露AI背後的技術細節。
騰訊研究人員表示,將AI執行動作時間限制在業餘高手玩家相同的水平上(間隔為133ms),絕悟已經能夠單挑頂級職業選手,並在其擅長的英雄上實現碾壓,15場比賽中職業選手只贏了1場,並且最多堅持不到8分鐘。
在今年8月份的公開測試中,這一王者榮耀1V1的AI與大量頂級業餘玩家進行了2100場對戰。AI勝率達到99.81%。
在貂蟬(法師)、狄仁傑(射手)、花木蘭(上單/戰士)、露娜(打野/刺客)、魯班(射手)等英雄上,勝率都是100%。
如此AI是怎麼訓練出來的?我們且看騰訊最新論文中披露的最新細節。
30小時達到王者水平,70小時比肩職業玩家
首先需要指明的是,騰訊的這篇新論文關注的是 1v1 遊戲AI,並不是 5v5 遊戲AI。
研究人員在論文中解釋稱,後者更注重所有智慧體的團隊合作策略,而不是單個智慧體的動作決策。
考慮到這一點,1v1遊戲更適合用來研究遊戲中的複雜動作決策問題,也能夠更加全面系統的研究遊戲 AI 智慧體的構建。
AI的整體架構一共分為4個模組:強化學習學習器(RL Learner)、人工智慧伺服器(AI Server)、分發模組(Dispatch Module)和記憶池(Memory Pool)。
這是一種高可擴充套件低耦合的系統架構,可以用來構建資料並行化。主要考慮的是複雜智慧體的動作決策問題可能引入高方差的隨機梯度,所以有必要採用較大的批大小以加快訓練速度。
其中,AI伺服器實現的是 AI 模型與環境的互動方式。分發模組是用於樣本收集、壓縮和傳輸的工作站。記憶池是資料儲存模組,能為 RL 學習器提供訓練例項。
這些模組是分離的,可靈活配置,從而讓研究者可將重心放在演算法設計和環境邏輯上。這樣的系統設計也可用於其它的多智慧體競爭問題。
在強化學習學習器中,他們還實現了一個 actor-critic 神經網路,用於建模1v1 遊戲中的動作依賴關係。
為了應對遊戲中的多個場景決策,研究人員們還提出了一系列演算法策略,來實現更高效率的訓練:
- 為了幫助AI在戰鬥中選擇目標,引入目標註意力機制;
- 為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
- 用於構建多標籤近端策略優化(PPO)目標,採用動作依賴關係的解耦;
- 為了引導強化學習過程中的探索,開發了基於遊戲知識的剪枝方法;
- 為了確保使用大和有偏差的資料批進行訓練時的收斂性,改進 PPO 演算法提出dual-clip PPO,其示意圖如下所示:
研究人員在論文中指出,基於這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 核心,訓練一天相當於人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業玩家,其表現要顯著優於多種baseline方法。
而且如前所述,在與人類選手交戰的測試中,獲得了非常亮眼的成績。
來自騰訊AI Lab和天美工作室,還在打造開放平臺
與2018年12月份釋出的王者榮耀AI論文作者單位相比,這次多了“天美工作室”——王者榮耀的開發團隊。
除了研究,騰訊AI Lab與王者榮耀還將聯合推出“開悟”AI+遊戲開放平臺。
王者榮耀會開放遊戲資料、遊戲核心叢集(Game Core)和工具,騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構共同推進相關AI研究,並通過平臺定期測評,來展示多智慧體決策研究實力。
目前“開悟”平臺已啟動高校內測,預計在2020年5月全面開放高校測試,並且在測試環境上,支援1v1,5v5等多種模式。
騰訊透露,計劃在2020年12月舉辦首屆AI在王者榮耀應用的水平測試。
作者:乾明
來源:量子位
地址:https://mp.weixin.qq.com/s/Mdq9fL10Zcjs_z3PeqtN9Q
相關文章
- 10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNaAST星際爭霸2
- 不服SOLO:騰訊絕悟AI擊敗王者榮耀頂尖職業玩家,論文入選AAAI,未來將開源AI
- 尷尬:新iPod出場,人氣碾壓Apple WatchAPP
- 20年度最扎心資料:AI薪資碾壓全行業!但人才缺口超500萬…企業:無人可用!AI行業
- 蘋果的上位史證明, Waymo無人車可被創業公司碾壓蘋果創業
- 2:0!谷歌 AI “AlphaStar“ 虐殺職業星際玩家谷歌AIAST
- 頂級人類玩家 Danil Ishutin被AI完敗AI
- 《星際爭霸II》AI機器人挑戰頂級職業選手,你Pick誰?AI機器人
- 騰訊怎麼玩體育:堅持媒體定位
- 【騰訊技術答人挑戰賽】答題贏iPad、Switch與海量鵝廠公仔~iPad
- 因為專業,所以堅持(轉)
- 在騰訊這一年,堅守初心持續單純 | 2021年終總結
- 蘋果堅持職能制,組織轉型還有必要嗎?蘋果
- 《王者榮耀》主策劃Xavier分享騰訊遊戲10年在職經歷遊戲
- 頂著生存壓力做一款不太容易被玩家理解的隱喻遊戲,是堅持還是放棄?遊戲
- 挑戰Java面試題複習第1天,堅持就是勝利Java面試題
- 碾壓美國的蘇聯AI事業:生於赫魯曉夫,死於勃列日涅夫AI
- 計世網:IT人堅持不懈的十件蠢事
- 挑戰中,Java面試題複習第4天,堅持就是勝利。Java面試題
- AI一分鐘 | 騰訊將成立機器人實驗室;機器翻譯重大突破:中英翻譯已達人類水平AI機器人
- 學習跪在堅持!
- 堅持程式設計程式設計
- 電感行業,在困境中堅持品質行業
- Docker奪命連環15問,你能堅持第幾問?Docker
- 人類幾小時,演算法幾分鐘!AI可精確追蹤單個神經元活動演算法AI
- 做網創IP超級簡單,堅持不要臉就行
- 獨家規劃_壓大單小單大雙小雙穩贏公式公式
- AI在遊戲裡碾壓了我們之後,又準備去開發遊戲了AI開發遊戲
- js堅持不懈之15:修改html內容和屬性的方法JSHTML
- 這款遊戲如何在前15分鐘讓玩家留下來?遊戲
- 15℃!人類首次實現高壓下室溫超導,研究登上Nature封面
- 『人類精子密度24年來持續下降』今日資料行業日報(2015.11.09)行業
- 剛出爐!年度榜單:Python三連冠,碾壓Java!你怎麼看?PythonJava
- 程式設計師工作量大,堅持不下去了該如何解壓?程式設計師
- 堅持就會有回報
- goCms-持續更新,希望能堅持下去Go
- RecordJapan:2015年全球移動遊戲市場規模250億美元 移動遊戲玩家15億人遊戲
- 專訪5位技術人,探祕AI酷職業背後的故事 AI