DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

大資料文摘發表於2019-01-23

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

大資料文摘出品

作者:魏子敏、蔣寶尚

半年前,OpenAI Five在Ti8賽事中與人類職業選手大戰DO他的盛況還歷歷在目,年前,DeepMind AI也要在遊戲界搞大事情了。

這次,AI要挑戰的是暴雪的經典遊戲——星際爭霸II。

DeepMind今天在twitter上公開發布了“戰帖”,表示要在兩天後當地時間週四下午6點,也就是北京時間週五凌晨2點,直播打星際II。

這不是一次簡單的直播,更像是一場特別的“釋出會”,DeepMind想要透過這場比賽,公開展示AI“學到的新戰術”。

本次的將要出戰的AI是由DeepMind和暴雪聯合培養的,經過了“特別的訓練方式”,似乎對這次比賽的勝利很有信心。

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

比賽將會在星際的Twitch頻道和DeepMind的Youtube頻道同步直播,先給出網址,星際II的玩家們,你們準備好對抗AI了嗎?

Twitch

YouTube:

暴雪:“所有AI都在以幾何速度學習進步”

暴雪在最近的BlizzCon上,總結了自己2018年的工作,並相當低調地釋出了“與DeepMind合作正在繼續 ”的更新:

DeepMind一直在努力訓練他們的AI更好地瞭解星際爭霸II。一旦它開始掌握遊戲的基本規則,它開始展示“有趣”的行為,例如立即衝向對手。目前,即時在“瘋狂”難度下的星際爭霸II,AI的成功率已經可以達到50%!


而且它還在學習:“在向它提供了更多真實玩家的遊戲回放之後,AI開始執行標準的宏觀策略,以及防禦諸如加農炮衝擊等激進戰術。”

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

暴雪的新年總結

經過三個月的訓練,顯然這隻AI取得了不錯的進展,而DeepMind和暴雪都認為現在已經到了將其公諸於眾的時候。

暴雪今天也釋出宣告稱,這場比賽將提醒我們,所有AI都在以幾何速度學習。“星際爭霸遊戲已經成為人工智慧社群的“巨大挑戰”,因為它們是針對諸如規劃,處理不確定性和空間推理等問題的進展基準的完美環境。” 

其實早在2016年,Deepmind已經立下Flag要教會AI玩兒星際爭霸II,也已經有包括facebook、阿里巴巴等不少科技公司或者研究機構開拓過“星際”這片競技場,但DeepMind這樣專治人類各種不服的公司正式宣佈與暴雪合作,還是讓一票星際玩家大呼“熱血”。 暴雪承諾將持續釋出從“星際爭霸II”天梯中收集的數十萬個匿名錄影,這會將訓練變得更加容易。 

2017年7月份,DeepMind已經官宣正式與暴雪娛樂合作,共同開發可以在星際爭霸II中與人類玩家對抗的AI,並且釋出了SC2LE,一個旨在加速即時戰略遊戲當中AI應用的工具集。

這次訓練的AI所採用的資料,很可能是暴雪承諾過的“星際爭霸II”天梯中收集的數十萬個匿名錄影。有了這些資料,相信AI的能力也會有突飛猛進的提升。

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

後臺回覆“星際爭霸”,即可獲得DeepMind相關論文



搞定星際爭霸可能需要十隻升級版阿爾法狗

不要以為有了優質資料就能訓練出來超強的AI。其實這並不是一項輕鬆的任務,因為影片遊戲的複雜性和更多可能性也讓AI戰勝人類要遠比在棋盤遊戲上覆雜。

星際爭霸和星際爭霸II是史上最大和最成功的遊戲之一,它們見證了許多玩家從青蔥歲月到為人父母的20多年。其原始遊戲早已被AI和ML研究人員使用,並在每年的AIIDE機器人大賽中進行角逐

AIIDE機器人大賽

~dchurchill/starcraftaicomp/

使用AI在星際爭霸中對戰人類玩家會比圍棋艱難得多,對於AI來說,最大的難點在於,每一場對決都存在大量可能的方式。

據估計,每場對決有101685種可能的配置,為了給大家一個直觀感受,阿爾法狗的配置層是10170。

此外,不同於棋類遊戲的輪流依次進行走步,並且擁有決策的時間,在星際爭霸中,玩家會同時出招,且不能看到對方玩家的狀態,也就是說,所有決定需要在“不完整資訊”的情況下做出。所有這些都意味著,你不能僅靠邏輯和一些步驟找到贏得對決的最優方式,玩家更需要的是策略和直覺。

PySC2助力AI訓練

星際爭霸II的玩家在同一時間可能有300多種基本行動可以選擇,因此策略集及策略選擇也對AI構成了巨大的挑戰。與此形成鮮明對比的是雅達利遊戲,大概只有10種選擇(例如,下,左,右等)。除此之外,星際爭霸中的很多操作是分級的,可以進行修改和擴充,其中很多都需要操作螢幕上的一個點進行。即使一個小84X84的螢幕也會產生大約1億種可能的行動選擇。

之前釋出的PySC2可以幫助研究人員利用暴雪自己的工具來解決這些挑戰,並且構建自己的任務和模型。

PySC2環境提供了一個靈活的,易於使用的RL代理遊戲介面。在最初的版本中,遊戲被分解為‘特徵層’,其中的遊戲元素,如單元型別、單位的健康度和地圖的可見性彼此隔離,同時保留遊戲的核心視覺和空間元素。

之前釋出的PySC2還包括一系列的迷你遊戲,一種將遊戲分解成小模組的技術,可以用來測試特定任務的代理,比如移動視角、收集礦物碎片或選擇單位。DeepMind希望研究人員可以測試他們的技術,並且開發新的迷你遊戲,以供其他研究人員進行使用和評估。

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

簡單的RL迷你遊戲可以讓研究者測試代理在一些特定任務上的表現

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

訓練過和未訓練過的代理在玩迷你遊戲

從棋牌遊戲到實時對戰,AI不斷挑戰自己

1997年,國際象棋AI第一次打敗頂尖的人類;2006年,人類最後一次打敗頂尖的國際象棋AI。

在2016年年底,一個名為“Master”的神秘線上圍棋玩家出現在了熱門的亞洲遊戲伺服器Tygem上。在接下來的幾天裡,這個神秘的玩家橫掃世界範圍內的許多一流玩家。

DeepMind攜手暴雪發戰帖:週五直播AI打星際II,釋出研究新進展

2017年5月,AlphaGo“Master”在對戰世界排名最高的圍棋選手柯潔中屢屢得分。在三場比賽中,人工智慧穩操勝券。

2017年12月,DeepMind釋出了一個更新版本的系統。這款名為“AlphaZero”的新人工智慧可以在短短几個小時內掌握各種遊戲。經過僅僅8個小時的自我訓練,這個系統不僅能打敗AlphaGo Zero的早期版本,而且還可以成為象棋大師和將棋(shogi,又稱日本象棋,一種流行於日本的棋盤遊戲)的冠軍。

在拿到棋牌類的王者之後,人工智慧向更復雜的實時對戰遊戲領域進發。

2018年,OpenAI Five與DOTA2半職業玩家團隊交手,比賽結果是2:1,人類輸掉了比賽。在2017年,比較原始版本的AI在1v1戰鬥中就擊敗了人類職業玩家Dendi。

2018年8月份,人工智慧在Ti8賽事中與職業玩家交手,比賽結果是兩場比賽,人類玩家守住了DOTA這一高地。其中,第二場與中國玩家交手,在第45分鐘的時候,AI直接認輸。

2018年9月,騰訊AI Lab釋出論文稱,他們構建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內建機器人Bot。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2564547/,如需轉載,請註明出處,否則將追究法律責任。

相關文章