DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

機器之心發表於2018-07-04

剛剛,DeepMind 釋出部落格,介紹了其在遊戲智慧體方面的新進展。該研究聚焦於第一人稱 3D 視角多人遊戲奪旗遊戲,發現其新型智慧體不僅可與其它智慧體合作,還可與人類玩家合作,效能達到人類水平。

多人電子遊戲中的策略掌控、戰術理解和團隊配合是 AI 研究的重要挑戰。現在,透過強化學習的新發展,DeepMind 的智慧體在雷神之錘 III 競技場奪旗模式(Quake III Arena Capture the Flag)中的表現達到人類水平,該遊戲包含複雜的多智慧體環境,也是典型的第一人稱 3D 視角多人遊戲。這些智慧體展示了和人工智慧體以及人類玩家合作的能力(雷神之錘III是一款多人連線第一人稱射擊遊戲(FPS))。


DeepMind 訓練的四個智慧體在程式生成的室內和室外奪旗模式(CTF)級別中一起戰鬥。

地球上居住了數十億人,每個人都有自己的個人目標和動作,但是他們仍然能夠透過團隊、組織和團體合作展示驚人的集體智慧。多智慧體學習設定指:很多單個智慧體必須獨立行動,但是也要學習和其他智慧體互動、合作。這是一個非常難的問題,因為共適應智慧體會使得這個世界不斷變化。

為了解決這個問題,DeepMind 研究者探索了第一人稱 3D 視角多人電子遊戲。這些遊戲代表了電子遊戲最流行的型別,並因其沉浸式遊戲體驗和策略、戰術、手眼協調、團隊合作的挑戰性吸引了數百萬遊戲玩家。DeepMind 智慧體的挑戰在於直接從原始畫素進行學習,並生成動作。其複雜度使得第一人稱視角多人遊戲成為 AI 社群一個碩果累累的活躍研究領域。

DeepMind 研究者在本次研究中聚焦的遊戲是《雷神之錘 III 競技場》(研究者從美學角度對其進行了修改,但所有遊戲機制都保持不變)。《雷神之錘 III 競技場》為很多現代第一人稱視角電子遊戲奠定了基礎,吸引了具備長期競爭力的電子競技場景。DeepMind 研究者訓練智慧體單獨學習和行動,但它們必須能夠團隊合作抵禦其他智慧體,不管是人工智慧體還是人類玩家。

CTF 的規則很簡單,但是動態很複雜。兩隊玩家在給定地圖上競爭,目標是奪取對方戰隊的旗子,並保護自己的旗子不被奪走。為了獲取戰術優勢,它們可以射擊對方戰隊的成員,讓它們返回它們的重生點(spawn point)。經過五分鐘遊戲後,奪取最多旗子的戰隊獲勝。


奪旗遊戲教程

從多智慧體的角度來看,CTF 需要玩家既能與團隊成員進行妥善合作,又要與對方戰隊競爭,同時還要對可能遇到的任何遊戲風格變化保持穩健性。

為了使事情更加有趣,DeepMind 研究者考慮了一種 CTF 變體,其中每一場比賽的地圖佈局都會發生改變。因此,智慧體必須學習到通用策略,而非記住地圖佈局。此外,為了展現公平的競技環境,DeepMind 的學習智慧體需要經歷與人類玩家類似的 CTF 世界:觀察畫素影像流,並透過模擬遊戲控制器做出行動。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

奪旗遊戲是在程式生成的環境中進行的,因此智慧體必須泛化到沒有見過的地圖。

智慧體必須從零開始學習如何在沒有見過的環境中觀察、行動、合作以及競爭,每場比賽都要從一個單一的強化訊號開始:它們的團隊是否取得勝利。這是一個具有挑戰性的學習問題,其解決方案需基於強化學習的三個基本理念:

  • 我們不是單獨訓練一個智慧體,而是訓練一群智慧體,並透過讓這些智慧體彼此成為隊友或對手來展開遊戲的方式學習。

  • 群體中的智慧體都各自學習自己的內部獎勵訊號,這使得智慧體能夠生成自己的內部目標,例如奪取一面旗。雙層(two-tier)最佳化過程直接最佳化智慧體獲勝的內部獎勵,並在內部獎勵上使用強化學習方法來學習智慧體的策略。

  • 智慧體在快速和慢速兩個時間尺度上執行,這提高了它們使用記憶和生成一致動作序列的能力。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

FTW(for the win)智慧體架構示意圖。該智慧體結合了快速和慢速時間尺度上的迴圈神經網路,包括共享記憶模組,並學習從遊戲點到內部獎勵的轉換。

由此產生的智慧體被稱之為 FTW 智慧體,學會了以非常高的標準玩 CTF。至關重要的是,學習到的智慧體策略對地圖的大小、隊員的數量以及團隊中的其他玩家都是穩健的。接下來,你可以探索一些戶外程式環境中的遊戲(其中 FTW 智慧體相互對戰),以及人類玩家和智慧體在室內程式環境中一起玩的遊戲。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

互動式 CTF 遊戲瀏覽器,具有程式生成的室內和戶外環境中的遊戲。戶外地圖上的遊戲是 FTW 智慧體之間的遊戲,而室內地圖上的遊戲是混合了人類玩家和 FTW 智慧體的遊戲(見圖示)。

DeepMind 舉辦了一場包括 40 名人類玩家的比賽,在比賽中人類和智慧體隨機配對——既有可能成為對手,也可能成為隊友。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

早期的一場 CTF 測試比賽,比賽雙方為經過訓練的智慧體與人類玩家組成的隊伍。

FTW 智慧體變得比強基線方法更強大,並且超過了人類玩家的勝率。事實上,在一項對參與者的調查中,它們被認為比人類玩家更具合作性。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

DeepMind 智慧體在訓練中的表現。新智慧體 FTW 的 Elo 評級(對應贏率)超過人類玩家和 Self-play + RS、Self-play 的基線方法。

不僅僅是效能評估,理解這些智慧體的行為和內部表徵的複雜度也很重要。

為了理解智慧體如何表徵遊戲狀態,DeepMind 研究者觀察智慧體的神經網路在飛機上繪製出的啟用模式。下圖中的點表示遊戲中的情形,鄰近的點表示類似的啟用模式。這些點根據不同的高階 CTF 遊戲狀態進行著色,這些狀態包括:智慧體在哪個房間?旗子的狀態怎樣?可以看到哪些隊友和對手?DeepMind 研究者觀察到同樣顏色的簇表示該智慧體以類似方式表示類似的高階遊戲狀態。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

智慧體如何表徵遊戲世界。概念上對應相同遊戲狀態的不同狀態由智慧體形成類似的表徵。訓練後的智慧體甚至直接用一些人工神經元來編碼特定情況。

智慧體從未被告知遊戲規則,然而卻能學習基本的遊戲概念並有效的發展出對奪旗遊戲的直觀認識。實際上,我們可以發現,某些特定的神經元可直接對最重要的遊戲狀態編碼,例如當智慧體的旗被奪走時某個神經元就被啟用,或當智慧體的隊友持有旗時某個神經元就被啟用。論文提供了進一步的分析,涉及智慧體如何利用記憶和視覺注意力。

除了豐富的表徵以外,智慧體實際上如何行動?首先,需要注意的是智慧體有非常快的反應時間和非常準確的命中率,這能解釋它們的優越表現。然而,透過人工減少命中率和反應時間,我們可以發現這僅是它們成功的其中一個因素。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

在訓練之後人工減少智慧體的命中率和反應時間的效果。即使在和人類相近的準確率和反應時間上,DeepMind 智慧體的表現也優於人類。

透過無監督學習 DeepMind 建立了智慧體和人類的原型行為,發現智慧體實際上學習了類似人類的行為,例如跟隨隊友和在敵人的基地紮營。

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

已訓練智慧體展示的自動發現行為的三個示例。

這些行為在訓練過程中透過強化學習和群體級演化而出現,隨著智慧體以更加互補的形式學習合作,諸如隊友跟隨這樣的行為就變少了。


以上是 FTW 智慧體群體的訓練進展。左上角展示了 30 個智慧體隨訓練和互相演化的 Elo 評級。右上角展示了這些演化事件的基因樹。底部的圖展示了知識、部分內部獎勵和遍及智慧體訓練過程的行為機率的進展。


該研究社群近期在複雜遊戲如星際爭霸 II 和 Dota 2 上做了非常棒的工作,而這篇論文則聚焦於奪旗遊戲,但其研究貢獻是通用的,DeepMind 也很期待其他人在不同的複雜環境中以該技術為基礎進行研究。未來,DeepMind 還希望進一步提升當前的強化學習和基於群體的訓練方法。DeepMind 認為該研究強調了多智慧體訓練促進人工智慧發展的潛力:利用多智慧體訓練提供的力量,並推動魯棒智慧體和人類的團隊合作。

論文:Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

DeepMind遊戲AI又有新突破,與智慧體、人類合作都不在話下

下載地址:https://deepmind.com/documents/224/capture_the_flag.pdf

摘要:近期的強化學習在越來越複雜的單智慧體環境和回合制雙玩家遊戲中取得了巨大的成功。然而,真實世界通常涉及多智慧體設定,每個智慧體需要獨立地學習和執行動作來和其它智慧體合作、競爭,而反映這種複雜程度的環境設定仍然是一大挑戰。在這項研究中,我們首次展示了一個智慧體可以在流行的第一人稱 3D 多人電子遊戲雷神之錘 III 競技場奪旗模式(Quake III Arena Capture the Flag)中達到人類水平,其中僅使用了畫素和遊戲點作為輸入。這些結果由一種新型的雙層(two-tier)最佳化過程得到,其中一群獨立的強化學習智慧體在數千個並行競賽中以團隊合作的對抗形式在隨機生成的環境中同時訓練。群體中的每個智慧體學習其自己的內部獎勵訊號作為評判輸贏的稀疏延遲獎勵的補充,並使用一種新型的時間分層表徵來選擇動作,該表徵允許智慧體在多種時間尺度上進行推理。在遊戲進行期間,這些智慧體展示了類似人類的行為,例如基於編碼了高階遊戲知識的已學習到的豐富表徵而實現的導航、跟隨和防禦。在擴充套件的錦標賽形式的評估中,訓練後的智慧體在作為隊友和對手的條件下都超越了人類玩家高手的勝率,並證實其遠遠超越了當前最佳的智慧體。這些結果展示了人工智慧體智慧行為的飛躍,讓我們更加接近實現人類級別智慧的目標。

原文連結:https://deepmind.com/blog/capture-the-flag/

相關文章