DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

機器之心發表於2019-01-25
兩年前,DeepMind 曾宣佈開始研究打即時戰略遊戲《星際爭霸 2》的人工智慧,今天,AlphaStar 終於首次亮相在世人眼前。在對陣人類職業玩家、前 WCS 亞軍 MaNa 的一場比賽中,人工智慧卻被人類「狡詐」的戰術迷惑,輸給了對手。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

在幾場展示 AI 實力的 Replay 鋪墊之後,AlphaStar 現場比賽卻輸了。面對剛剛從電腦前起身的 MaNa,DeepMind 的兩位科學家 David Sliver 與 Oriol Vinyals 只能露出尷尬的微笑。

看來,人工智慧在征服這個「最複雜遊戲」的過程中還需要學會應對很多戰術和突發情形。在全球首場星際爭霸 2 的「人機大戰」中,AI 和人類玩家都使用了神族。

人工智慧表示:Pimba,所以我用神族(其實當然不是了,是因為神族的兵種最容易計算)。

挑戰遊戲 AI 的最高峰

2018 年,機器之心記錄了 OpenAI 人工智慧挑戰 Dota 2 的全程式:從最初的 1 v 1 戰勝 Dendi,到 5 v 5 團隊賽中擊敗業餘人類玩家,最後在 TI 8 中挑戰職業玩家敗北。

雖然,OpenAI 人工智慧在 TI 8 現場的表現不盡人意,但我們可以看到社群在 AI+遊戲領域不斷取得進步。

除了 Dota2、王者榮耀這樣的 Moba 類遊戲,星際爭霸因其豐富的多層次遊戲機制,對於人工智慧研究來說也是一個再理想不過的環境。過去一年,機器之心報導了眾多機構在星際爭霸、星際爭霸 2 上的 AI 研究成果。而我們所熟知的 DeepMind,在圍棋專案結束之後也成為了 AI+星際爭霸研究的主力之一。

兩日前,DeepMind 宣佈會以線上直播的形式公佈 AI+星際爭霸 2 方面的最新進展,吸引了 AI 社群、遊戲社群的極大關注。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

孫一峰永遠是我大哥。

小編作為 Dota2 魚塘級玩家,今日為大家帶來最新的報導:DeepMind 的 AlphaStar 很強,它在一個月前接連以 5:0 的比分戰勝了 Liquid 戰隊的兩名職業選手,但現場比賽卻輸了。

DeepMind 的其他人工智慧一樣,打星際爭霸 2 的人工智慧也需要一個自己的名字。在人機大戰開場數小時前,DeepMind 創始人 Demis Hassabis‏就通過 Twitter 向我們揭曉了謎底,繼 AlphaGo、AlphaGo Zero、AlphaFold 之後,新的智慧體名為 AlphaStar。

在 AI 圈、遊戲界關注之下,DeepMind 的星際爭霸 2AI 首秀開始。此次 Demo 的主持人為美國電子競技解說 Artosis。國內有旭東老仙,美國也有 Artosis。Artosis 的詛咒就被喻為歐美星際爭霸圈內的最強毒奶。RotterdaM 是星際爭霸 2 官方解說,前魔獸 3、星際 2 職業選手。

在開場前,DeepMind 聯合研究負責人 Oriol Vinyals 對比了 Atari 遊戲、圍棋與星際爭霸 2 三者之間的複雜度。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

星際爭霸 2 是人類遊戲史上最困難、最成功的即時戰略遊戲,這一系列遊戲的歷史已經超過 20 年。星際爭霸長盛不衰的部分原因在於其豐富的多層次遊戲機制,對於人工智慧研究來說,這是一個非常接近現實世界的虛擬環境。

星際爭霸擁有平衡的遊戲規則,以及諸多資訊和需要控制的變數。例如,雖然遊戲的目標是擊敗對手,但玩家也必須顧及並平衡子目標的數量,比如收集資源(水晶和氣礦)或建造房屋(提高人口限制)。此外,一場比賽的時間通常為幾分鐘到一小時不等,這意味著遊戲中提早執行的操作也許會很長時間不見成效。最後,由於戰爭迷霧的存在,地圖對於玩家只有部分顯示,這意味著智慧體必須結合記憶與規劃才能成功。

星際爭霸還有其他吸引研究者的方面,比如每天線上競爭的大量狂熱玩家。這保證了有大量的遊戲記錄資料可以學習,以及大量可與智慧體競爭的優秀人類對手。

甚至星際爭霸的操作空間也是一個挑戰,可從超過 300 種操作中做選擇,相比之下 Atari 遊戲只有 10 種操作選擇(例如,上下左右等)。在此之上,星際爭霸中的操作是層級的,能夠進行調整、增強,有很多遊戲單位需要點選螢幕控制。即使一個 84x84 解析度的小螢幕,大概也存在 1 億種可能的操作。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

5:0 擊敗 LiquidTLO?演呢?

AlphaStar 對決的第一個人類對手,是液體戰隊的星際爭霸 2 職業玩家 LiquidTLO。他是一名來自德國的蟲族玩家,活躍於 2013-2015 年,本名 Dario Wünsch。TLO 職業生涯最好的成績是 2013 年 6 月,在 HomeStory Cup VII 獲得第三名,目前 TLO 的全球排名為 68 位。

TLO 對於能夠被邀請來到 DeepMind 成為首個接受 AI 挑戰的職業選手感到有些驚喜:「當時 DeepMind 發了封電子郵件來邀請我,後來我發現自己就來倫敦了。」雖然在主玩蟲族之前,TLO 還打過一陣 Random,但他已經 28 歲了,神族遊戲水平存疑。他在前去 DeepMind 對戰之前練習了百場比賽。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

比賽期間,小編也逛了 scboy 的直播。黃旭東表示,LiquidTLO 都已經 28 了,找他來打,開玩笑嗎?雖然 AI 限制了 APM,但是因為 AI 應該完全沒有無效操作,180 的 APM 還是很高的。而相對於人類選手,有效操作 180 已經是頂級水平了。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

Alphastar 對戰 LiquidTLO 演示

開場之後,第一盤人類選手使徒雙開對 AI 單礦 VR。第一波使徒騷擾 AlphaStar 防守中規中矩,可以說不虧不賺。之後反穿了兩個使徒打到了 6 個農民拖後了開礦節奏。而後 AlphaStar 開門帶運輸機前壓,點掉電池之後通過運輸機操作秀了人類選手一臉,AI 不朽還在路上 TLO 就打出 GG。

此時的 AlphaStar 看起來表現不強,菜雞互啄。開局沒有去對手家裡探路,也沒有做紀律性的檢視對手有沒有野建築之類的操作,讓人難以明白 AI 是怎麼判斷對手的戰術的。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

第一場結束後放出的資料,TLO 559 的 APM。網友評論:臉滾鍵盤嗎?

在展示的第三場比賽視訊中,雙方打出一個雙礦對開的局面。AI 前期補了兩礦農民才放下基地,但是人口還是領先,給到了人類選手一定的壓力。尤其是在操作上,AI 操作猛如虎。但是從比賽看來它還是有非常大的侷限性,對於一些情況完全不知道如何處理,而且並沒有多線操作,而是所有兵力集中推進。大概唯一的多線就是在 AI 家裡的運營一直非常穩健。視訊中雖然 TLO 利用一些小多線和鳳凰、立場打回了一些。尤其是在中期有一波 AI 領先 60 人口但是沒有打過,人口差一度被打回 20 以內。但是由於 AI 平穩的運營,還是把優勢掌握在手裡,直到最後人類選手打出 GG。

最後,AlphaStar 以 5:0 的絕對優勢擊敗了 TLO。旭東老仙與眾多網友都表示 TLO 未能發揮出職業玩家該有的水平,請的演員嗎?(不是小編說的)。

但是看了下面 AlphaStar 對戰波蘭選手 MaNa 的視訊之後,之前看了 TLO 比賽喊著「收了錢、放水、假賽」的二五仔們又精神了。

5:0 擊敗 MANA,服了

在 LiquidTLO 之後,DeepMind 的 AlphaStar 對決的人類選手是同樣來自液體戰隊的 MaNa。MaNa 本名 Grzegorz Komincz,來自波蘭,曾在 2015 年的 WCS 闖進決賽,這是一個正經的神族選手。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

MaNa「忠肝義膽」,可不會跟你演戲。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

對戰 MaNa 時,AlphaStar 視角的神經網路處理視覺化。神經網路觀察影像,輸入內容會啟用網路的不同節點,進而開始「考慮」應對的動作,例如點選和建造,並預測各種結果。AlphaStar 也會預測對手的發展情況,儘管有時因為戰爭迷霧的存在無法完全做到。

在第一場比賽中,AI 的第一個水晶很難受,影響了採氣,但是 AlphaStar 主動放了一個戰術:在 MaNa 基地附近放下了兩個 BG,但是很快就被 MaNa 看到。之後,MaNa 放下電池後放心的派出先知去 AlphaStar 家裡屠農,但是 AI 在頂著 MaNa 兩個追獵的火力點掉了高地下方的石頭之後,堅決的打出一波。雖然 MaNa 的不朽已經走出 VR,但是第一時間被點掉。拖農民對於 AI 的操作根本沒有影響,先知回防也被立刻點掉,MaNa 打出 GG。

看了對戰 MaNa 的視訊,旭東老仙說,AlphaStar 鳳凰的這個操作有些誇張,是人類玩家無法實現的。對戰 MaNa 和 TLO 中間間隔了一週,看來已經學會堵口的建築學了。

此外,AI 對於農民採礦的細節應該是也在不斷調整。我們可以從視訊中看出,同樣的農民數量,採礦效率總是比人類選手高。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

看到這裡,我們可以發現 AlphaStar 此時的操作和運營真的無懈可擊,它對攻擊物件的選擇也是很精確,沒有浪費火力,也就是說戰鬥中幾乎是 0 失誤。

這樣的電腦看來只能拼一槍戰術了,操作肯定是拼不過了,看看能不能在兵者詭道方面佔一些便宜。

第四場視訊看到的就是 AI 用無解的操作非常賴皮的以劣勢兵種強吃人類玩家兵力。雖然 AI 主力只有追獵者,但是被 MaNa 分割之後打出了三線拉扯,打出了罕見的追獵包不朽,一波瞬間 1600 的 APM 之後操作完勝,MaNa 主力死光無奈 GG。

最後,MaNa 0:5 同樣敗北。

現場對決 MaNa:出人意料的反轉

AlphaStar 背後的故事。

在一段記錄視訊中,DeepMind 回顧了 AlphaStar 的超快進化歷程:2018 年 12 月 10 日,AlphaStar 擊敗了 DeepMind 公司裡的最強玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已經可以 5:0 擊敗職業玩家 TLO 了(雖然 TLO 是蟲族玩家,但解說們認為他在遊戲中的表現大概能有 5000 分水平);又過了一個星期,12 月 19 日,AlphaStar 同樣以 5:0 的比分擊敗了職業玩家 MaNa。

為了讓人感受充分訓練後 AlphaStar 的強大,DeepMind 組織了一場現場對決。MaNa 在比賽前稱,自己要來一場「復仇之戰」。

出人意料的是,這一場比賽人類選手竟然獲勝了。

這是 AlphaStar 首次星際爭霸 2 的人機大戰直播。通過這場比賽我們可以看到 AI 的一個缺陷:除了特定的分兵戰術,並沒有靈活的兵力分配概念。這讓我們想起打星際 1 電腦的遠古時代,開局派出一個農民去攻擊電腦的基地,電腦就會派出所有農民去一直追殺你這個農民。這場 MaNa 也是利用的相似的辦法,稜鏡帶著兩不朽在 AI 的基地不停騷擾,AlphaStar 一旦回防立刻飛走,等 AI 兵力出門又立刻繼續騷擾。

AlphaStar 是如何學會打星際爭霸 2 的

TLO 和 MaNa 等專業星際爭霸玩家在整場比賽中平均每分鐘可發出數百個動作(APM)。這一資料遠小於星際爭霸的機器人(它們可以單獨控制所有單位,達到數萬 APM)。在對陣 TLO 和 MaNa 的比賽中,AlphaStar 的平均 APM 是 280,稍低於職業玩家,不過 AI 的操作都是有效操作。DeepMind 稱,AlphaStar 的 APM 較低是因為 AI 使用人類玩家對戰的 Replay 進行訓練,從而模仿了人類的遊戲方式。此外,AI 在觀察影像和進行操作之間的延遲平均為 350 毫秒。

在比賽結束後不久,DeepMind 官方部落格隨即放出了整個 Demonstration 的視訊與 AlphaStar 的技術解讀。

據介紹,AlphaStar 的行為是由一種深度神經網路生成的,該網路從原資料介面(單位列表與它們的特性)接收輸入資料,輸出構成遊戲內行為的指令序列。具體來說,該神經網路在單元中使用了一個 transformer 作為軀幹,結合了一個深度 LSTM 核、一個帶有 pointer 網路的自動迴歸策略 head 以及一箇中心價值基線。

AlphaStar 也使用到了全新的多智慧體學習演算法。神經網路最初通過暴雪公開的匿名人類遊戲視訊以監督學習進行訓練。這讓 AlphaStar 能夠通過模仿進行學習天梯玩家的基礎微操與巨集觀操作策略。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

AlphaStar 聯盟。最初是通過人類玩家的遊戲回放視訊進行訓練,然後與其他對手對抗訓練。每次迭代就匹配新的對手,凍結原來的對手,匹配對手的概率和引數決定了每個智慧體採用的的學習目標函式,保留多樣性的同時增加難度。智慧體的引數通過強化學習進行更新。最終的智慧體取樣自聯盟的納什分佈(沒有更換)。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

比賽匹配分級評估:對不通訓練時間的 AlphaStar 聯盟水平的大約估計

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

隨著自我博弈的進行,AlphaStar 逐漸開發出了越來越成熟的戰術。DeepMind 表示,這一過程和人類玩家發現戰術的過程類似:新的戰術不斷擊敗舊的戰術。

為了訓練 AlphaStar,DeepMind 使用了谷歌最先進的深度學習晶片 TPU v3 構建了一個高度可擴充套件的分散式訓練配置,支援數千個對戰訓練並行運算。AlphaStar League 執行了 14 天,每個人工智慧體使用 16 塊 TPU。在訓練時間上,每個智慧體相當於訓練了人類的 200 年遊戲時間。最後成型的 AlphaStar 採用了各個智慧體中獲勝概率最高戰術的組合,並可以在單個 GPU 的計算機上執行。

DeepMind 表示,對於這項工作的全面描述已經寫成論文,目前正在接受同行評議期刊的審閱。又會是一篇 Nature 嗎?

結語

看了前面回放的比賽視訊,我們經歷了從「很失望」、「AlphaStar 不行」,到「AI 的操作有點意思」,最後到「人類要完」、「打不過了」。但最終的現場決賽,人類玩家還是扳回一成。

此外,DeepMind 的 AlphaStar 也許並非最強的智慧體。芬蘭電競戰隊 ENCE 也在兩天釋出通告:Artificial Overmind 挑戰賽的獲勝 AI 將可以挑戰世界冠軍 Serral,也許這會是一場值得期待的人機對決。

DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了

20 天后,人類和 AI 將會有怎樣的對決?

參考連結:https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

相關文章