2016 年 11 月,DeepMind 與著名遊戲公司暴雪宣佈將在即時戰略遊戲《星際爭霸 2》上合作,這家隸屬谷歌的公司將在遊戲平臺中進行人工智慧研究。近兩年來,DeepMind 的研究進度時有透露,但距離「人機對戰」似乎還有很長一段距離。剛剛,DeepMind 宣佈即將公佈一個有關星際爭霸 2 的「最新進展」,而且會以線上直播的形式展現在世人面前。
時間:北京時間週五凌晨 2 點
直播連結(Twitch):https://www.twitch.tv/starcraft
直播連結(Youtube):https://www.youtube.com/channel/UCP7jMXSY2xbc3KCAE0MHQ-A/featured
在 AlphaGo征服圍棋之後,《星際爭霸》一直被人工智慧研究者視為下一個目標,因為它相比國際象棋與圍棋更接近「複雜的現實世界」,DeepMind 科學家 Oriol Vinyals 曾表示:「能玩《星際爭霸》的人工智慧必須能夠有效利用記憶,能夠進行長期戰略規劃,同時還得根據不斷出現的新情況做出反應調整。以這種標準開發的機器學習系統,最終完全可以應用到現實世界中的任務中去」。
DeepMind 的星際 2 人工智慧看來即將第一次正式亮相了,公司 CEO 丹尼斯·哈薩比斯在社交網路上表示:你不會想錯過這次直播的!
在 DeepMind 和暴雪上一次釋出星際爭霸 2 訊息的時候,Oriol Vinyals 在 2018 年暴雪嘉年華上分享了人工智慧模型在星際爭霸上的驚喜突破。人工智慧模型當時已能執行基本的宏觀戰略,還能防禦一些像 Tower Rush 這樣的激進戰術。
距離上次訊息才過去幾個月,DeepMind 已經準備好釋出更多他們的研究訊息。星際爭霸系列遊戲已經成為人工智慧社群的一個巨大挑戰,因為在解決像規劃、處理不確定性和空間推理等問題時,它們是進行研究最好環境。
1 月 24 號下午 7 點(歐洲中部時間),可以登陸 StarCraft's Twitch channel 和 DeepMind's Youtube channel 來獲取更多進展資訊。不要錯過!
星際爭霸 2:最複雜的 RTS 遊戲
星際爭霸和星際爭霸 2 是人類遊戲史上最困難、最成功的兩款遊戲,玩家們在其中彼此競賽已超過 20 年。最初的遊戲也已為人工智慧和機器學習研究者所用,他們參加每年一次的 AIIDE 機器人競賽。星際爭霸長盛不衰的部分原因在於其豐富的多層次遊戲機制,對於人工智慧研究來說,這簡直是一個再理想不過的環境。
例如,雖然遊戲的目標是擊敗對手,但玩家也必須顧及並平衡子目標的數量,比如收集資源(水晶和氣礦)或建造房屋(提高人口限制)。此外,一場比賽的時間通常為幾分鐘到一小時不等,這意味著遊戲中提早執行的操作也許會很長時間不見成效。最後,由於戰爭迷霧的存在,地圖對於玩家只有部分顯示,這意味著智慧體必須結合記憶與規劃才能成功。
星際爭霸還有其他吸引研究者的方面,比如每天線上競爭的大量狂熱玩家。這保證了有大量的遊戲記錄資料可以學習,以及大量可與智慧體競爭的優秀人類對手。
甚至星際爭霸的操作空間也是一個挑戰,可從超過 300 種操作中做選擇,相比之下 Atari 遊戲只有 10 種操作選擇(例如,上下左右等)。在此之上,星際爭霸中的操作是層級的,能夠進行調整、增強,有很多遊戲單位需要點選螢幕控制。即使一個 84x84 的小螢幕,大概也存在 1 億種可能的操作。
DeepMind 和暴雪也歡迎更多的科研人員加入挑戰這一「最困難遊戲」的行列。2017 年,兩家公司共同釋出了基於星際爭霸 2 的人工智慧研究環境 SC2LE,它允許研究者在 Linux 系統中接入遊戲 API,開展自己的人工智慧研究。
人工智慧的 APM 被限制了嗎?
和 OpenAI 打 Dota 2 時一樣,人工智慧在玩電腦遊戲時因為「反應」更快,所以 DeepMind 在和人類比賽時也需要進行一些限制。
目前最為接近的例子是 Dota 2 人工智慧 OpenAI Five,這個人工智慧被設定為平均每分鐘進行 150-170 次操作(APM=150-170,因為每四幀觀察一次,所以理論峰值為 450)。熟練的玩家有可能掌握完美捕捉畫面的時機,但這對機器來說輕而易舉。OpenAI Five 的平均反應時間為 80 毫秒,這個速度比人類更快。
在 2017 年 DeepMind 提交的論文《StarCraft II: A New Challenge for Reinforcement Learning》中,研究人員曾表示:「人類玩家通常每分鐘可以進行 30-300 次操作(即 APM30-300),隨著玩家水平的提高,這個數字也會有所提升。職業玩家在極限操作時 APM 有可能超過 500。在 DeepMind 的所有強化學習實驗中,人工智慧每 8 個遊戲幀行動一次,這相當於 APM180。這是一個和中等玩家水平相當的選擇。」
APM180 是「中等水平」……星際爭霸真是一個神仙打架的遊戲。
人工智慧能夠打敗什麼水平的人類玩家?
自 DeepMind 宣佈進軍星際爭霸 2 以來,這家公司一直較為低調,人們一度認為這一非對稱資訊遊戲無法被人工智慧在短時間內掌握。在兩年多的時間裡,DeepMind 也僅僅提交了兩篇論文。最近的一篇論文,2018 年 6 月的《Relational Deep Reinforcement Learning》曾提到研究人員正在使用深度強化學習方法解決問題。
論文中寫道:DeepMind 的深度強化學習方法可以透過結構化感知和關係推理提高常規方法的效率、泛化能力和可解釋性。在 6 個小遊戲中的 4 個實現了超越人類大師級玩家水平,DeepMind 是故意沒有展現出自己的全部實力嗎?
在 2018 年 11 月舉行的暴雪嘉年華(Blizzcon)活動中,暴雪曾介紹道:「DeepMind 一直在努力訓練人工智慧模型,以更好理解星際爭霸 2 規則。一旦模型掌握遊戲的基本規則,它就可以開始進行一些有趣的行為,比如帶農民 Rush 開局。在與「瘋狂」難度標準的星際爭霸 2 AI 模型對陣的時候,獲勝機率可以達到 50%。」
「在人工智慧學習人類玩家的遊戲錄影之後,它就能開始使用常規戰術了,同時也可以防禦對手諸如 Tower Rush 這樣的激進戰術。」
除 DeepMind 以外,其他研究機構也在進行自己的努力。去年 9 月份,騰訊 AI Lab 等機構利用深度強化學習開發出了能在《星際爭霸 II》全場遊戲中打敗「瘋狂」內建 AI 的智慧體(深海暗礁地圖,蟲族 1 對 1),「瘋狂」AI 在視野和採集資源速度上具有不平衡的優勢,能力相當於暴雪戰網(Battle.net)天梯排名系統中前 30% - 50% 的人類玩家。
目前星際爭霸 2 世界排名前 10 的職業玩家。AlphaGo 的第一次亮相是對陣樊麾二段,OpenAI 的第一次則是在 Dota 2 中單挑戰勝了職業玩家 Dendi,如果 DeepMind 的人工智慧要對抗人類,會選誰做對手?
目前,OpenAI 的人工智慧已能在 Dota 2 上和人類頂尖職業玩家勉強過招了,騰訊 AI Lab 的王者榮耀 AI「覺悟」也在 KPL 決賽上擊敗了頂尖戰隊,DeepMind 又會給我們帶來哪些驚喜?幾十個小時之後答案就會揭曉。
在此,先奶一口DeepMind。
參考內容:
https://news.blizzard.com/en-gb/starcraft2/22640608/recap-starcraft-ii-what-s-next-2019-panel
https://arxiv.org/abs/1708.04782
https://arxiv.org/pdf/1806.01830.pdf
https://news.blizzard.com/en-gb/starcraft2/22871520/deepmind-starcraft-ii-demonstration