10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

大資料文摘發表於2019-01-28

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

大資料文摘編輯組出品

5分36秒,10:1,人類完敗。

這是在星際爭霸2遊戲中,DeepMind AI——AlphaStar對戰人類的最新戰局。

一共11場比賽,其中10場是事先錄製的,只有1場是現場交手。現場交手的雙方是AlphaGo的“哥哥”AlphaStar與 2018 WCS Circuit排名13、神族最強10人之一的MaNa。在11場比賽中,也只有現場交手這一次,由於比賽限制了AI的“視覺”能力,MaNa幫人類贏了一場。

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa


另外10場比賽,代表人類出戰的是職業選手TLO和MaNa。兩位選手分別與AlphaStar打了五場。如果說與TLO對戰時AlphaStar還是萌新的話,那麼與MaNa的對戰則完全顯示出了其戰術的老辣。畢竟,兩個比賽才相隔2周,AI 自學成才的能力已經初步顯示了可以超越人類極限的潛力。

比賽的錄影,DeepMind也在其官網給出,星迷們可以透過下面的連結回顧賽事?

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

比賽概況

前10場分別是在12月份的BOD賽舉行的,比賽地圖是Catalyst,中文名叫“匯龍島”。比賽所採用的版本也是專門為了進行人工智慧研究所開發的。雖然TLO在比賽之前表示完全有信心打敗AI,但是不得不說,5場比賽中AI獨特的戰術似乎讓TLO始料不及,最後TLO以5:0輸掉比賽。

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

AlphaStar在對抗TLO的時候在比賽制度的設定上還是有些優勢。首先,這場比賽雙方都只能使用Protoss(神族),這並非TLO主族(在天梯上,職業玩家的主族和副族之間往往相差一千分以上)。此外,AlphaStar與普通玩家的比賽視角不同,雖然AI也受到戰爭迷霧的限制,但它基本上可以看到整個小地圖。這意味著它可以快速處理可見的敵方及其自身基礎的等資訊,所以其不必像人類玩家那樣將需要將時間分配到地圖的不同區域。

在今天的現場直播中,比賽限制了AI的“視覺”能力,MaNa對戰AlphaStar,幫人類玩家拿下一勝,一雪前恥。這也顯示雖然AlphaStar僅僅經過幾周的自我學習就能與頂級玩家交手,但也存在很多漏洞和可以改進的地方。

儘管如此,AlphaStar並沒有如人們想象的那樣,從優勢中獲得大的收益。雖然在理論上TLO和MaNa在遊戲中的APM不如AI快,但AlphaStar實際上每分鐘執行的運算元比他的人類對手還少,並且明顯少於普通職業玩家的操作次數。AI也有大約350毫秒的反應時間,顯然這比大多數職業玩家要慢。不過,整體來看,雖然人工智慧花費了更多時間,但卻能夠做出更聰明,更有效的決策,從而更佔優勢。

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

AlphaStar:用一週玩了200年的星際爭霸II

AlphaStar在遊戲中的專業能力主要來自DeepMind稱之為AlphaStar聯盟的深入培訓計劃。DeepMind透過重播大量的人類遊戲錄影,並基於這一資料訓練神經網路。由人類資料組成的代理分叉建立新的對手,並且這些競爭者在一系列比賽中相互匹配。同時,鼓勵原始資料的那些分支去學習特殊技能,並掌握遊戲的不同部分以創造獨特的遊戲體驗。

AlphaStar聯盟執行了一週,每場比賽都產生了新的資訊,有助於改進AI的戰略。在那一週,AlphaStar相當於玩了整整200年的星際爭霸II。結束時,DeepMind選擇了五個最不容易被利用、獲勝機率最高的agent對戰TLO,在5場比賽中全部勝利。

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

看到人工智慧成功地打敗非對手,DeepMind決定讓AlphaStar對抗神族專家MaNa(雖然在職業賽場上MaNa這樣的歐美籍草雞神族並不代表人類的最高水平和最先進的戰術體系)。AlphaStar在比賽前進行了另一週的訓練,吸取了包括在和TLO比賽中所獲得的知識。評論員們指出,人工智慧在比賽中發揮得更像人類,在調整決策和風格的同時放棄了一些比較不穩定和意想不到的行動。

就像他之前的TLO一樣,儘管MaNa表現出了十足的英勇,但仍然在每場比賽中都輸給了AlphaStar。人工智慧再次贏得了所有五場比賽。這場人機大戰,在與職業人類選手的前10場比賽中以10比0結束。

在播放錄製的比賽後,DeepMind推出了新版AlphaStar,MaNa在現場直播中和再次與AI交鋒。這一次 AlphaStar無法享受頭頂攝像頭的好處,它必須決定將視線焦點放在哪裡(像人類玩遊戲的方式一樣)。 DeepMind表示,在一週之內AlphaStar已經快速掌握了遊戲的新視覺觀感,但還沒有機會在對陣MaNa之前和人類專業玩家進行測試。

隨著對AlphaStar視覺觀感的新限制,MaNa能夠利用AI的一些缺點並取得勝利,所以AlphaStar輸給了人類玩家。

AlphaStar在整場比賽中展示了令人印象深刻的微操作能力。很快將受損的部隊移回,將較強的部隊帶入戰鬥的前線。AlphaStar還控制著戰鬥的速度,讓單位前進並在正確的時間略微回拉以造成更多傷害,同時減少收到的傷害。這不是APM的優勢,與人類玩家相比,AlphStar的APM反而更低。AlphaStar的優勢主要在於更最佳化的策略和更聰明的決定。

確實,AlphaStar的專業水準與在遊戲上的學習速度對每一位星際玩家來說可能都不是什麼好訊息。但是,在遊戲領域,遊戲玩家可以從AI身上學到非常多有用的策略。

星際爭霸——挑戰人類智力的遊戲

“星際爭霸2”由暴雪娛樂公司製作,以虛構的科幻宇宙為背景,具有豐富的、多層次的遊戲體驗,其目的在於挑戰人類的智力。超過20年的時間裡,玩家們連續不斷的舉辦比賽,參加比賽,在賽場上拋灑熱血。

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

這個遊戲有幾種不同的遊戲模式,比賽中最常見的是1v1比賽。首先,玩家必須選擇玩三個不同的外星“種族”,即蟲族,神族或人族,每一個種族都有獨特的能力和特點。每個玩家開局都會有控制單位,透過收集基本資源來構建更多的單位,從而開發新的戰術和技能。透過新的戰術和技能收集新的資源,建立更加牢固、複雜的基地。如此迴圈往復,直到打敗對手為止。

所以說,要想獲勝,玩家必須有全域性把控能力,強大的戰略佈局能力以及對單個單位的“微觀”控制能力。

玩遊戲的過程中,要做到短期目標和長期目標的相容。還需要強大的靈活調整能力,能夠應對遊戲過程中的突發情況。為了解決這幾點,總的來說,人工智慧的需要突破的技術點是:

博弈論:星際爭霸是一種像石頭剪刀一樣的遊戲,沒有單一的最佳策略。因此,在對人工智慧進行訓練的時候,需要不斷探索戰略層面的知識。

  • 不完全的資訊:在國際象棋或圍棋這種棋牌遊戲中,玩家可以對比賽一覽無餘。在星際中,玩家關鍵的資訊是隱藏的,必須透過“偵察”才能發現。

  • 長遠佈局:和許多現實世界的問題一樣,因果關係並不是那麼容易達成。在遊戲的任何地方你都可以花費時間,但這也意味著在遊戲早期採取的行動可能在很長一段時間內沒有回報。

  • 實時:不同於傳統棋盤遊戲,玩家輪流行動,星際爭霸玩家必須在遊戲中不斷進行操作。

  • 巨大操作空間:必須實時控制數百個不同的單元和建築物,從而形成巨大的可能性組合空間。除此之外,操作是分層的,可以修改和擴充。 對遊戲的引數化允許在每個時間步長平均有大約10到26個合法操作。

由於這些難點,星際爭霸已成為人工智慧研究的“巨大挑戰”。星際爭霸和星際爭霸II正在進行的比賽評估了自2009年BroodWar API推出以來的進展,包括AIIDE星際爭霸AI比賽,CIG星際爭霸比賽,學生星際爭霸AI比賽和星際爭霸II AI 排名賽。為了幫助社群進一步探索這些問題,在2016年和2017年與暴雪合作釋出了一套名為PySC2的開源工具,包括迄今為止釋出的最大的匿名遊戲回放集。我們現在在這項工作的基礎上,結合工程和演算法的突破製造了AlphaStar。

AlphaStar怎麼訓練的

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

訓練能力比較

AlphaStar的工作原理是首先獲取原始遊戲資料,並透過遊戲中複製的指令學習遊戲規則。但是為了理解如何玩,DeepMind必須做大量的訓練。

為AlphaStar提供支援的神經網路學習了暴雪公司提供的約50萬場匿名人類真實遊戲。然後AlphaStar能夠透過模仿學習策略,雖然它只是觀察人類如何玩遊戲。很快,該專案可以在95%的遊戲中擊敗“精英”級遊戲AI。

然而,這些資訊用於訓練各種Agent,每個Agent在一個龐大的虛擬AlphaStar聯盟中相互競爭。人工智慧與人工智慧對決,只為了一個目標:精通遊戲。

這項技術被稱為多智慧體強化學習過程,透過集體經驗學習。隨著新的Agent加入到聯盟中,他們分叉並參與越來越多的比賽,透過強化學習在每個階段採用新策略,同時不忘記如何擊敗早期的策略。

隨著聯盟的擴大,新戰略開始出現。然後,隨著時間的推移,這些策略的反制策略被開發出來,直到該計劃在獲得了在戰術上對如何獲勝的不同的理解,無論其在遊戲中面臨的怎樣具體的挑戰。在AlphaStar聯盟的早期比賽中,該計劃偏愛有風險的“All-in”戰略。但是,隨著時間的推移,它學會了更具戰略性,每個Agent實際上都在試圖擊敗它之前看到的每一個Agent。

聯盟中的每個Agent也有自己的目標:例如,一個可能需要擊敗一種競爭者,而另一個可能需要透過使用特定的遊戲單元來專注於獲勝。聯盟執行了14天,每個AI Agent使用16個張量處理單元(谷歌的AI晶片組)。總體而言,每個Agent經歷了長達200年的實時星際爭霸遊戲,並且數千個並行執行的遊戲例項。

最終的AlphaStar Agent將透過數千小時遊戲玩法發現的所有最佳策略的精華融入到可以在單個桌面GPU上執行的程式中。

10:1,AlphaStar橫空出世,碾壓星際爭霸2人類職業玩家 TLO 和 MaNa

“點選”次數比較

除了複雜性,星際爭霸挑戰對人工智慧系統的主要吸引力還在於它的廣泛性和競爭性。在眾多競賽中,有超過240萬名玩家,因此DeepMind能夠在大量資料上訓練AlphaStar。在基準測試中,它每分鐘能夠執行大約280個動作,遠低於專業人類玩家可以實現的動作,但是,重要的是,DeepMind認為,AlphaStar更精確。這也反映在了對抗人類對手的比賽中,例如,在對陣Wünsch的第一場比賽中,AlphaStar每分鐘完成277次動作,而人類玩家則為559次。AlphaStar輕鬆贏得了比賽。

這一點為什麼重要呢?DeepMind希望這些透過研究星際爭霸所完成的無數突破可以擴充套件到其他不那麼瑣碎的應用當中。

例如,AlphaStar的神經網路架構可以模擬和理解可能行為的長序列,並使用混亂和不完全的資訊來實現。在影片遊戲中,這允許AI快速找到獲勝策略並在必要時進行調整。在現實世界中,基於大量資料進行復雜的預測是人工智慧的基本挑戰。

AlphaStar所取得的成就在這一挑戰中向前邁出了重要一步。該計劃能夠在星際爭霸中取得優異成績,以後也可能有助於更精準的天氣預報,氣候建模和語言理解。“我們對利用AlphaStar專案的學習和發展在這些領域取得重大進展的潛力感到非常興奮,”DeepMind團隊表示。

拭目以待!

相關報導:

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2565030/,如需轉載,請註明出處,否則將追究法律責任。

相關文章