AlphaStar被職業玩家戲耍:在星際2上,人工智慧無計可施

機器之心發表於2019-09-09

為了提高人工智慧水平,DeepMind 與暴雪在戰網天梯中開放了 AlphaStar:玩家只要進行申請並通過就可以和這個最強 AI 進行線上對決了。而且現在,AlphaStar 已經可以使用全部三個種族。

然而,與圍棋人工智慧 AlphaGo 走過的軌跡完全不同,在幾個月的發展之後,人工智慧的遊戲似乎完全沒有長進,反而是各路人類玩家獲得了經驗:他們找到了各種各樣「戲耍」AI 的方法。

我們找到了 AlphaStar 近期人機大戰錄影中的三個:

在兩場神族對戰蟲族的比賽中,AlphaStar(P)面對目前全球排名第 50 的 Bly(Z),從頭到尾毫無還手之力。

首先是第一場:相比此前和 AlphaStar 交手的 LiquidTLO,蟲族選手 Bly 更加年長一些——他是一名從魔獸爭霸 3 轉型的星際 2 選手,已年過 30。然而,在兩場比賽中人類玩家使用簡單的單礦 Rush 戰術獲得了幾乎相同的勝利。人們紛紛表示:AI 最近的發展似乎僅限於「學會了在聊天頻道里發表情」。

AlphaStar 的人族實力如何?在對戰全球排名第 3 的 Neeb(神族)時,AlphaStar 的表現。

可以看到,雖然 AI 在使用人族時已經學會了使用女妖和死神對敵人進行騷擾,但在正面進攻不利,又被 Neeb 偷家的情況下還是敗下陣來,整場比賽用時 13 分鐘。

這可能是目前最為高階的「人機大戰」了:AlphaStar vs Serral。

DeepMind 當然也找來了目前星際爭霸 2 最強的玩家,芬蘭蟲族選手 Serral 進行了人機對決。在這場 16 分鐘的比賽裡,Serral 和 AI 進行了正面的硬碰硬戰鬥。然而看起來在這種比賽裡任何一方出現短板就會造成最終的失利。有評論表示:看起來 Serral 比 AlphaStar 更像是 AI。

以下引用一位網友對比賽的深度解讀:

更糟糕的是,人類玩家似乎找到了對抗 AlphaStar 的方法。但現在,DeepMind 頻繁地更改自己的賬號,使得它們更加難以追蹤。從比賽中可以看出智慧體(agent)具有幾點特徵:

1. 在對抗人類玩家上實現了巨大飛躍,但它依然無法真正理解遊戲概念;

2. 未能對大量常見遊戲策略做出適時回應;

3. 無法在比賽中根據人類對手做出調整,始終堅持設定的遊戲指令碼;

4. 除了人族外,其他智慧體在巨集觀和微觀行動中表現出了嫻熟的技能,但在建築物走位方面存在困難,經常將己方單位鎖在基地內;

5. 在人族遊戲中表現最差,蟲族表現最佳(有爭議);

6. 在蟲族遊戲中策略最為單調。

DeepMind《星際爭霸 2》AI 對抗人類玩家的發展歷程

星際爭霸 2 是人類遊戲史上最困難、最成功的即時戰略遊戲,這一系列遊戲的歷史已經超過 20 年。星際爭霸長盛不衰的部分原因在於其豐富的多層次遊戲機制,對於人工智慧研究來說,這是一個非常接近現實世界的虛擬環境。

星際爭霸擁有平衡的遊戲規則,以及諸多資訊和需要控制的變數。此外,一場比賽的時間通常為幾分鐘到一小時不等,這意味著遊戲中提早執行的操作也許會很長時間不見成效。最後,由於戰爭迷霧的存在,地圖對於玩家只有部分顯示,這意味著智慧體必須結合記憶與規劃才能成功。

2017 年,DeepMind 宣佈開始研究打即時戰略遊戲《星際爭霸 2》的人工智慧。

2018 年 12 月 10 日,AlphaStar 擊敗了 DeepMind 公司裡的最強玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已經可以 5:0 擊敗職業玩家 TLO 了(雖然 TLO 是蟲族玩家,但解說們認為他在遊戲中的表現大概能有 5000 分水平);又過了一個星期,12 月 19 日,AlphaStar 同樣以 5:0 的比分擊敗了職業玩家 MaNa。

那麼 AlphaStar 是如何學會打《星際爭霸 2》的呢?

AlphaStar 的行為是由一種深度神經網路生成的,該網路從原資料介面(單位列表與它們的特性)接收輸入資料,輸出構成遊戲內行為的指令序列。具體來說,該神經網路在單元中使用了一個 transformer 作為軀幹,結合了一個深度 LSTM 核、一個帶有 pointer 網路的自動迴歸策略 head 以及一箇中心價值基線。

AlphaStar 也使用到了全新的多智慧體學習演算法。神經網路最初通過暴雪公開的匿名人類遊戲視訊以監督學習進行訓練。這讓 AlphaStar 能夠通過模仿進行學習天梯玩家的基礎微操與巨集觀操作策略。

AlphaStar被職業玩家戲耍:在星際2上,人工智慧無計可施AlphaStar 聯盟。最初是通過人類玩家的遊戲回放視訊進行訓練,然後與其他對手對抗訓練。每次迭代就匹配新的對手,凍結原來的對手,匹配對手的概率和超引數決定了每個智慧體採用的的學習目標函式,保留多樣性的同時增加難度。智慧體的引數通過強化學習進行更新。最終的智慧體取樣自聯盟的納什分佈(沒有更換)。

AlphaStar被職業玩家戲耍:在星際2上,人工智慧無計可施

隨著自我博弈的進行,AlphaStar 逐漸開發出了越來越成熟的戰術。DeepMind 表示,這一過程和人類玩家發現戰術的過程類似:新的戰術不斷擊敗舊的戰術。

DeepMind AlphaStar 現場首秀落敗於人類玩家 MaNa

今年 1 月,DeepMindAlphaStar 終於首次在世人面前亮相。但在對陣人類職業玩家、前 WCS 亞軍 MaNa 的一場現場比賽中,人工智慧卻被人類「狡詐」的戰術迷惑,遺憾落敗。

AlphaStar被職業玩家戲耍:在星際2上,人工智慧無計可施

在幾場展示 AI 實力的 Replay 鋪墊之後,AlphaStar 現場比賽卻輸了。面對剛剛從電腦前起身的 MaNa,DeepMind 的兩位科學家 David Sliver 與 Oriol Vinyals 只能露出尷尬的微笑。

在這場比賽中,AI 的一個缺陷暴露出來:除了特定的分兵戰術,智慧體並沒有形成靈活的兵力分配概念。MaNa 採取的策略是:稜鏡帶著兩不朽在 AI 的基地不停騷擾,AlphaStar 一旦回防立刻飛走,等 AI 兵力出門又立刻繼續騷擾。因此,面對 MaNa 靈活的出兵策略,AlphaStar 只能被動應戰,因而也無法形成對 MaNa 的有效進攻,也導致了最終的落敗。

毫無疑問,作為人工智慧領先技術的研究機構,DeepMind 的 AlphaGo 和 AlphaFold 等專案不僅引發了全球對於人工智慧技術的關注熱潮,同時也為新技術在一些領域的落地找到了方向。然而在星際爭霸 2 上,人工智慧遭遇了前所未有的挑戰,不斷燒錢的 DeepMind 能否最終找到解決之道?

相關文章