OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI
大資料文摘出品
來源:OpenAI
編譯:王強
本週末OpenAI Five與世界冠軍Dota 2團隊OG的總決賽中,它2比0大敗對手。
這意味著OpenAI Five是第一個在電競遊戲中擊敗世界冠軍的AI。
OpenAI Five和DeepMind的AlphaStar之前曾私下擊敗過優秀的職業選手,但卻輸掉了職業比賽。這次在直播中的表現可以說出乎了大多數人的意料。
在比賽後,OpenAI也發博文總結了這次比賽的經驗以及在也公佈了他們在訓練OpenAI Five過程中的經驗教訓。一起來看!
在OpenAI Five 的總決賽中,還有兩個驚喜:
1.儘管訓練過程專注於擊敗其他機器人,但OpenAI Five具有了如何成為人類隊友的初級能力。這很容易將競爭性AI轉變為合作型AI,透過積極的開發工作,未來的AI系統會對人類非常有益。
2。最後的測試將讓我們回答一個重要的研究問題:在多大程度上OpenAI Five可以被利用或以其他方式被確定地擊敗。這可能是有史以來最大規模的高強度深度強化學習智慧體的部署,人們可以有意識地與之互動。
為什麼是Dota?
啟動OpenAI Five是為了解決現有深度強化學習演算法無法實現的問題。希望透過解決當前方法無法解決的問題,這需要大幅增加我們工具的功能。我們需要複雜的演算法思想,例如分層強化學習,但我們對所發現的東西感到驚訝:我們對這個問題所需的基本改進是規模。實現和利用這種規模並不容易,這正是我們研究工作的主要內容!
為了構建OpenAI Five,我們建立了一個名為Rapid的系統,讓我們以前所未有的規模執行PPO。結果超出了我們最大的期望,我們生產了世界級的Dota機器人,沒有受到任何基本的效能限制。
當今RL演算法令人驚訝的強大功能是以大量經驗為代價,這在遊戲或模擬環境之外是不切實際的。這種限制可能沒有聲稱的那麼糟糕,例如,我們使用Rapid來控制機器手以靈巧地重新定位塊,這完全是在模擬中訓練並在物理機器人上執行。但我們認為減少經驗量是RL的下一個挑戰。
今天,OpenAI Five作為競爭者將要退休,但取得的進步和發展的技術將繼續驅動我們未來的工作。這不是我們Dota工作的結束——我們認為Dota對於RL開發來說比現在使用的標準環境更具有內在的趣味和困難(現在這已經很好理解!)。
算力
週六OpenAI Five的勝利與2018年國際賽的失敗相比,是由於一次重大變化:訓練計算量增加了8倍。在專案的許多前期階段,我們透過提高訓練規模來推動進一步的發展。但是在國際賽之後,我們已經將我們專案計算量的絕大部分用於訓練單一的OpenAI Five模型。所以,我們以唯一可用的方式增加了計算規模:更長久的訓練。
OpenAI Five的TrueSkill。因為我們已經應用了額外的訓練計算,其中線條劃分了主要的系統變化(轉向單一通道;將LSTM大小增加到4096單位;升級到補丁版本7.20和7.21)。該圖大致是線性的,這意味著OpenAI Five從額外的計算中不斷受益(注意這是一個雙對數圖,因為x軸是計算量的對數,而TrueSkill大致對應於指數進展)。這個圖表評估了最終遊戲規則(1個通道,補丁7.21等)上的所有機器人——甚至那些在舊遊戲規則上訓練過的機器人。任何這些之後的陡坡表明OpenAI Five適應了這種變化; 根據變化,評估可能對之前的版本不公平。
總的來說,當前版本的OpenAI Five已經消耗了800 petaflop / s-days,並且在10個實時月內經歷了大約45,000年的Dota自我遊戲(從國際賽上的1.5個實時月份開始,大約10,000年),平均每天250年的模擬經驗。OpenAI Five的總決賽版本與TI版本相比,勝率為99.9%。
遷移學習
儘管模型大小和遊戲規則發生了變化(包括一些相當大的遊戲補丁更新和新實現的功能),但目前版本的OpenAI Five自2018年6月以來一直在不斷訓練。在每種情況下,我們都能夠將模型轉移並繼續訓練,這對於其他領域的RL來說是一個開放的挑戰。據我們所知,這是RL智慧體第一次使用如此長期的訓練課程進行訓練。
為了完成這項工作,我們繼續充實我們的診斷工具,以便我們可以從訓練有素的引數開始,甚至跨越實質性的架構變化。
更多英雄
我們看到從5個到18個英雄的訓練速度並沒有明顯減弱。我們假設對更多英雄來說也是如此,在國際賽之後,我們投入了大量精力來整合新的英雄。
我們花了幾個星期的時間訓練英雄池至25個英雄,將這些英雄訓練到大約5k MMR(大約95%的Dota玩家)。儘管他們還在進步,但他們的學習速度還不夠快,無法在總決賽之前達到職業水平。我們尚未有時間調查原因,但我們的懷疑包括模型容量不足,以及需要更好的匹配擴充套件的英雄池去要求更多的訓練時間來讓新英雄趕上老英雄。想象一下,當你習慣了某個英雄之後,學習新英雄是多麼難!
我們相信這些問題從根本上是可以解決的,解決它們本身就很有趣。在總決賽中的可選英雄中刪除了巫妖,可選英雄數量變為17位因為巫妖的能力在Dota7.20版本中發生了顯著變化。
協同模式
它實際上感覺很好;我的冥界亞龍在某些時候為我獻出了生命。他試圖幫助我,想著“我確定她知道她在做什麼”然後顯然我沒有。但是,你知道,他相信我。和[人類]一起時,我並沒有獲得這些。
——Sheever
在總決賽期間,我們展示了OpenAI Five與人類一起在團隊中的表現。這場比賽的特色是一隊有Blitz和Sheever以及由Five控制的3個智慧體,面對ODPixel、Capitalist和3個由Five的獨立副本控制的智慧體。
OpenAI Five與人類玩耍的能力為人類與AI互動的未來提供了一個很好的願景,即AI系統協作並增強人類體驗。我們的測試人員報告說,他們感覺得到了機器隊友的支援,他們從這些先進的系統中學到了很多東西,而且整體來說這通常是一種有趣的體驗。
請注意,OpenAI Five展示了零樣本遷移學習:訓練它讓所有英雄都受到自身副本的控制,但是可以推廣到控制一部分英雄,與人類協作或對抗。我們非常驚訝於這工作得很有效。事實上,我們考慮在國際賽上進行合作比賽,但認為需要專門的訓練。
競技場
我們正在推出OpenAI Five 競技場,這是一項公共實驗,我們將讓任何人在競爭和合作模式下玩OpenAI Five。我們知道我們的1v1機器人可以透過更聰明的策略來利用; 我們不知道OpenAI Five在多大程度上也是如此,但我們很高興邀請社群幫助我們找到答案!
競技場於4月18日星期四太平洋標準時間下午6點開放,並於4月21日星期日太平洋標準時間晚上11:59關閉。
下一步是什麼
一旦我們審查了OpenAI Five 競技場的結果,我們將釋出對OpenAI Five的更多技術分析。
之後,我們將繼續使用OpenAI中的Dota 2環境。我們已經看到過去兩年RL效能取得了快速進展,我們認為Dota 2將繼續幫助我們推進可行的方案——無論是透過較少的資料還是真正的AI合作實現得力的表現。
相關報導:
https://openai.com/blog/how-to-train-your-openai-five/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2641819/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- OpenAI在Dota 2遊戲中雖敗猶榮OpenAI遊戲
- 最終決戰!OpenAI將挑戰Dota2 TI 8冠軍OGOpenAI
- OpenAI公開Dota 2論文:勝率99.4%,「手術」工具連續遷移訓練OpenAI
- ROTK!OpenAI對戰中國Dota2大神再次慘敗OpenAI
- Dota 2被攻陷!OpenAI 人工智慧5V5模式擊敗人類玩家(4000分水平)OpenAI人工智慧模式
- CA週記 - 帶你進⼊ OpenAI 的世界OpenAI
- 帶你進⼊ OpenAI 的世界OpenAI
- OpenAI披露最新研究成果:AI訓練如何擴充套件到更大規模?OpenAI套件
- AI在5v5《DOTA2》比賽中擊敗人類選手 創里程碑!AI
- 4分鐘訓練ImageNet!騰訊機智創造AI訓練世界紀錄AI
- AI賭神升級!無懼bluff,6人局德撲完勝世界冠軍,訓練只用了8天AI
- 像訓練Dota2一樣訓練真實機器人?Gibson Environment環境瞭解一下機器人
- 傳統方法已經Out了?OpenAI提出全新辯論模式訓練AIOpenAI模式
- dota2啟動失敗 初始化vulkan失敗
- AI訓練的空洞騎士能打敗大黃蜂小姐姐嗎?AI
- AI信任危機之後,揭秘預訓練如何塑造機器的「可信靈魂」AI
- 如何改善你的訓練資料集?(附案例)
- Nature封面:AI訓練AI,越訓越離譜AI
- AI告你侵權?別慌,都是人訓練出來的AI
- 世界盃要來了,AI預測冠軍哪家強?AI
- 適合AI訓練的遊戲框架AI遊戲框架
- 特斯拉AI主管給你的33條深度學習訓練建議AI深度學習
- 谷歌免費GPU訓練星際2AI好難?你需要份debug指南谷歌GPUAI
- [原始碼分析] Facebook如何訓練超大模型 --- (2)原始碼大模型
- YOLO2訓練YOLO
- AI打遊戲-肆(模型訓練)AI遊戲模型
- 人工智慧版權戰開打!OpenAI反擊稱:模型訓練使用的是受版權保護的資訊人工智慧OpenAI模型
- 【vjudge訓練記錄】11月個人訓練賽1
- 如何藉助分散式儲存 JuiceFS 加速 AI 模型訓練分散式UIAI模型
- Dota 2被攻陷!OpenAI Five 5V5團戰中戰勝人類OpenAI
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了AIGo
- 2024.10.[2, 3]訓練記錄
- 戰勝人類的Dota 2 AI作弊?AI專家稱比賽不公平AI
- 全世界 LoRA 訓練指令碼,聯合起來!指令碼
- NVIDIA NeMo 如何支援對話式 AI 任務的訓練與推理?AI
- 訓練記錄(Jul.)
- 7/14 訓練筆記筆記