OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

大資料文摘發表於2019-04-18

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

大資料文摘出品

來源:OpenAI

編譯:王強

本週末OpenAI Five與世界冠軍Dota 2團隊OG的總決賽中,它2比0大敗對手。

這意味著OpenAI Five是第一個在電競遊戲中擊敗世界冠軍的AI。

OpenAI Five和DeepMind的AlphaStar之前曾私下擊敗過優秀的職業選手,但卻輸掉了職業比賽。這次在直播中的表現可以說出乎了大多數人的意料。

在比賽後,OpenAI也發博文總結了這次比賽的經驗以及在也公佈了他們在訓練OpenAI Five過程中的經驗教訓。一起來看!

在OpenAI Five 的總決賽中,還有兩個驚喜:

1.儘管訓練過程專注於擊敗其他機器人,但OpenAI Five具有了如何成為人類隊友的初級能力。這很容易將競爭性AI轉變為合作型AI,通過積極的開發工作,未來的AI系統會對人類非常有益。

2。最後的測試將讓我們回答一個重要的研究問題:在多大程度上OpenAI Five可以被利用或以其他方式被確定地擊敗。這可能是有史以來最大規模的高強度深度強化學習智慧體的部署,人們可以有意識地與之互動。

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

為什麼是Dota?

啟動OpenAI Five是為了解決現有深度強化學習演算法無法實現的問題。希望通過解決當前方法無法解決的問題,這需要大幅增加我們工具的功能。我們需要複雜的演算法思想,例如分層強化學習,但我們對所發現的東西感到驚訝:我們對這個問題所需的基本改進是規模。實現和利用這種規模並不容易,這正是我們研究工作的主要內容!

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

為了構建OpenAI Five,我們建立了一個名為Rapid的系統,讓我們以前所未有的規模執行PPO。結果超出了我們最大的期望,我們生產了世界級的Dota機器人,沒有受到任何基本的效能限制。

當今RL演算法令人驚訝的強大功能是以大量經驗為代價,這在遊戲或模擬環境之外是不切實際的。這種限制可能沒有聲稱的那麼糟糕,例如,我們使用Rapid來控制機器手以靈巧地重新定位塊,這完全是在模擬中訓練並在物理機器人上執行。但我們認為減少經驗量是RL的下一個挑戰。

今天,OpenAI Five作為競爭者將要退休,但取得的進步和發展的技術將繼續驅動我們未來的工作。這不是我們Dota工作的結束——我們認為Dota對於RL開發來說比現在使用的標準環境更具有內在的趣味和困難(現在這已經很好理解!)。

算力

週六OpenAI Five的勝利與2018年國際賽的失敗相比,是由於一次重大變化:訓練計算量增加了8倍。在專案的許多前期階段,我們通過提高訓練規模來推動進一步的發展。但是在國際賽之後,我們已經將我們專案計算量的絕大部分用於訓練單一的OpenAI Five模型。所以,我們以唯一可用的方式增加了計算規模:更長久的訓練。

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

OpenAI Five的TrueSkill。因為我們已經應用了額外的訓練計算,其中線條劃分了主要的系統變化(轉向單一通道;將LSTM大小增加到4096單位;升級到補丁版本7.20和7.21)。該圖大致是線性的,這意味著OpenAI Five從額外的計算中不斷受益(注意這是一個雙對數圖,因為x軸是計算量的對數,而TrueSkill大致對應於指數進展)。這個圖表評估了最終遊戲規則(1個通道,補丁7.21等)上的所有機器人——甚至那些在舊遊戲規則上訓練過的機器人。任何這些之後的陡坡表明OpenAI Five適應了這種變化; 根據變化,評估可能對之前的版本不公平。

總的來說,當前版本的OpenAI Five已經消耗了800 petaflop / s-days,並且在10個實時月內經歷了大約45,000年的Dota自我遊戲(從國際賽上的1.5個實時月份開始,大約10,000年),平均每天250年的模擬經驗。OpenAI Five的總決賽版本與TI版本相比,勝率為99.9%。

遷移學習

儘管模型大小和遊戲規則發生了變化(包括一些相當大的遊戲補丁更新和新實現的功能),但目前版本的OpenAI Five自2018年6月以來一直在不斷訓練。在每種情況下,我們都能夠將模型轉移並繼續訓練,這對於其他領域的RL來說是一個開放的挑戰。據我們所知,這是RL智慧體第一次使用如此長期的訓練課程進行訓練。

為了完成這項工作,我們繼續充實我們的診斷工具,以便我們可以從訓練有素的引數開始,甚至跨越實質性的架構變化。

更多英雄

我們看到從5個到18個英雄的訓練速度並沒有明顯減弱。我們假設對更多英雄來說也是如此,在國際賽之後,我們投入了大量精力來整合新的英雄。

我們花了幾個星期的時間訓練英雄池至25個英雄,將這些英雄訓練到大約5k MMR(大約95%的Dota玩家)。儘管他們還在進步,但他們的學習速度還不夠快,無法在總決賽之前達到職業水平。我們尚未有時間調查原因,但我們的懷疑包括模型容量不足,以及需要更好的匹配擴充套件的英雄池去要求更多的訓練時間來讓新英雄趕上老英雄。想象一下,當你習慣了某個英雄之後,學習新英雄是多麼難!

我們相信這些問題從根本上是可以解決的,解決它們本身就很有趣。在總決賽中的可選英雄中刪除了巫妖,可選英雄數量變為17位因為巫妖的能力在Dota7.20版本中發生了顯著變化。

協同模式

它實際上感覺很好;我的冥界亞龍在某些時候為我獻出了生命。他試圖幫助我,想著“我確定她知道她在做什麼”然後顯然我沒有。但是,你知道,他相信我。和[人類]一起時,我並沒有獲得這些。

——Sheever

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

在總決賽期間,我們展示了OpenAI Five與人類一起在團隊中的表現。這場比賽的特色是一隊有Blitz和Sheever以及由Five控制的3個智慧體,面對ODPixel、Capitalist和3個由Five的獨立副本控制的智慧體。

OpenAI Five與人類玩耍的能力為人類與AI互動的未來提供了一個很好的願景,即AI系統協作並增強人類體驗。我們的測試人員報告說,他們感覺得到了機器隊友的支援,他們從這些先進的系統中學到了很多東西,而且整體來說這通常是一種有趣的體驗。

請注意,OpenAI Five展示了零樣本遷移學習:訓練它讓所有英雄都受到自身副本的控制,但是可以推廣到控制一部分英雄,與人類協作或對抗。我們非常驚訝於這工作得很有效。事實上,我們考慮在國際賽上進行合作比賽,但認為需要專門的訓練。

競技場

我們正在推出OpenAI Five 競技場,這是一項公共實驗,我們將讓任何人在競爭和合作模式下玩OpenAI Five。我們知道我們的1v1機器人可以通過更聰明的策略來利用; 我們不知道OpenAI Five在多大程度上也是如此,但我們很高興邀請社群幫助我們找到答案!

競技場於4月18日星期四太平洋標準時間下午6點開放,並於4月21日星期日太平洋標準時間晚上11:59關閉。

OpenAI擊敗Dota 2世界冠軍後記:如何訓練你的AI

下一步是什麼

一旦我們審查了OpenAI Five 競技場的結果,我們將釋出對OpenAI Five的更多技術分析。

之後,我們將繼續使用OpenAI中的Dota 2環境。我們已經看到過去兩年RL效能取得了快速進展,我們認為Dota 2將繼續幫助我們推進可行的方案——無論是通過較少的資料還是真正的AI合作實現得力的表現。

相關報導:

https://openai.com/blog/how-to-train-your-openai-five/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2641819/,如需轉載,請註明出處,否則將追究法律責任。

相關文章