清華大學團隊與騰訊AI Lab專項合作奪冠FPS遊戲AI競賽VizDoom

機器之心發表於2018-08-23

在荷蘭剛剛結束的 IEEE CIG 計算智慧與遊戲大會上,清華大學張鈸院士領導的人工智慧創新團隊 TSAIL 在第一人稱射擊類遊戲《毀滅戰士》(Doom)AI 競賽 VizDoom(Visual Doom AI Competition)上榮獲競賽  Track 1 的預賽和決賽冠軍,及 Track 2 預賽冠軍、決賽亞軍,成為賽事歷史上首箇中國區冠軍。

該賽事研究得到了騰訊 AI Lab 犀牛鳥專項合作計劃的大力支援,研究過程中與騰訊 AI Lab 的資深研究員進行了密切合作。團隊負責人為清華大學 TSAIL 實驗室負責人朱軍教授,成員包括清華大學蘇航、黃世宇、閻棟、翁家翌及宋世虹,及騰訊 AI Lab 許佳、孫鵬等研究人員。

清華大學團隊與騰訊AI Lab專項合作奪冠FPS遊戲AI競賽VizDoom

清華大學團隊與騰訊AI Lab專項合作奪冠FPS遊戲AI競賽VizDoom

清華大學團隊與騰訊AI Lab專項合作奪冠FPS遊戲AI競賽VizDoom

圖 1 至圖 4 依次為: Track 1 預賽、Track 2 預賽、Track 1 決賽及 Track 2 決賽。點選可放大圖片。

清華大學團隊與騰訊AI Lab專項合作奪冠FPS遊戲AI競賽VizDoom

打 Doom 遊戲的 AI

《毀滅戰士》是 ID Software 公司於 1993 年推出的 FPS(First Person Shooter,第一人稱射擊)類遊戲,作為該型別遊戲開拓者,模式延續到《使命召喚》和《光環》等多個射擊遊戲。AI 在遊戲中能有畫面而無聲音資訊,因此基於強化學習的 Bot 獲得的資訊比人類還少,使該遊戲成為了 AI 研究熱門試驗場。

深度學習強化學習興起背景下,2016 年,基於遊戲的 ViZDoom AI 競賽誕生,研究能獲取原始視覺資訊的強化學習技術,因其高挑戰性吸引眾多頂級實驗室,如 2016 年冠軍 Facebook FAIR(Track 1)和英特爾(Track 2)、2017 年冠軍 Marvin(Track 1)和卡耐基梅隆大學(Track 2)。

清華大學團隊與騰訊AI Lab專項合作奪冠FPS遊戲AI競賽VizDoom

比賽共分為兩個挑戰,Track 1 是單人闖關模式,考核標準是最短時間內闖最多的關口。這是今年的新增專案,與以往經典的死亡競賽不同,需要 AI 能同時完成探索路徑、收集裝備、躲避陷阱、殺死怪物、尋找出口等諸多複雜任務,對 AI 的任務理解和環境認知能力要求極高。在 53 個國際參賽團提交的 204 個機器人中,只有 6 個團隊實現了有意義的闖關。

針對該複雜任務,TSAIL 團隊提出了環境資訊引導的分層強化學習技術,在對環境資訊有效感知基礎上,融合環境反饋和強化學習的獎勵訊號,引導分層強化學習訓練,使得 AI 闖關表現優異,預賽中以絕對優勢保持第一,直至決賽鎖定冠軍。

第二個挑戰 Track 2 是隨機對戰模式(Death Match),這是 VizDoom 的傳統專案,採用死亡競賽模式,要求參賽選手在同一個地圖裡對殺 10 分鐘,AI 要在儲存自己的同時,儘量多的殺傷敵人。最後用 Frags(=殺敵數量-自殺數量)定勝負。清華大學和騰訊 AI Lab 去年曾參賽並獲得優異成績。今年的比賽喜迎了 33 個參賽隊的 152 個機器人。

在 Track 2 中,TSAIL 團隊針對目前強化學習中普遍存在的動作空間大和獎勵訊號稀疏等問題,更改適配了輕量級物體檢測架構 YOLO-v3,並與強化學習演算法有效融合,極大提高了強化學習的訓了效率。預賽競爭異常激烈,TSAIL 團隊與第二名不斷交換領先,最後以 0.1 個 frag 優勢奪冠。決賽有 6 支團隊參加,包括預賽的前三名、2017 年冠、亞軍及 2016 年冠軍,TSAIL 最終奪得亞軍,成績遠超前兩屆冠軍。

參與 VizDoom 競賽的意義,首先是探索輸入畫素級視覺資訊,直接輸出 AI 控制策略的強化學習演算法。在研究上,這能帶動同類任務研究,如無人駕駛、機器人導航和物體追蹤等;應用上,可助力同類射擊遊戲開發,如虛幻競技場、雷聲之錘和刺激戰場等,從而擴充人工智慧技術的研究和應用領域。

團隊介紹

清華大學 TSAIL 人工智慧創新團隊

該團隊由張鈸院士領銜,聚焦人工智慧原創性基礎理論,團隊核心成員包括國家「萬人計劃」青年拔尖人才、MIT TR 35 中國區先鋒者朱軍教授、以及胡曉林、李建民、蘇航等教師,和 30 餘名在讀博士和博士後。經過多年的積累,TSAIL 團隊在深度學習、貝葉斯學習、強化學習等人工智慧基礎理論方面取得了一系列創新成果,研發的深度貝葉斯平臺「珠算」具有重要的影響力。近年來,TSAIL 團隊成員在 ICML、NIPS、CVPR、IJCAI 等人工智慧領域頂級會議上發表論文一百餘篇,先後獲得中國計算機學會自然科學一等獎、nvidia 先鋒實驗室等多個重要獎項,和多個國際比賽的冠亞軍,是人工智慧基礎理論研究領域具有重要國際影響力的團隊。

延伸閱讀

騰訊 AI Lab 核心方向 - 遊戲 AI

遊戲 AI 是騰訊 AI Lab 的核心研究領域,這是人工智慧與博弈論的一個交叉領域,從小來說,它研究如何用 AI 提升人類玩遊戲的體驗。從大來說,它研究人、智慧體及環境間的複雜互動關係。遊戲 AI 一直在推動人工智慧的核心發展,從國際象棋和圍棋中 AI 擊敗人類高手,現在已轉移到更復雜的實時策略型遊戲,如《星際爭霸》;及多人線上戰術競技 MOBA 遊戲,如《DOTA 2》與《王者榮耀》。

遊戲 AI 研究的奧義——遠不止於遊戲本身。這是一個富有挑戰而令人振奮的研究課題,研究當中累積的經驗、方法與結論,能在更廣大深遠的範圍被利用。首先是打通虛擬與現實世界的藩籬,從而賦能物理世界,比如無人車和機器人的發展;其次,遊戲中對話智慧的研究,或能成為通向強人工智慧的重要路徑;第三,研究遊戲中人、智慧體和環境的互動,能讓智慧城市這樣複雜而意義深遠的專案受益。

遊戲 AI 涉及到三個核心能力:對外界環境的感知,根據狀態做出的決策,人與智慧體之間的對話。比如在圍棋的遊戲場景,可以通過感知棋盤的全域性表達狀態決定在哪裡落子。而現實中的無人車,同樣可以通過視覺,鐳射雷達的感知對方向盤,剎車等動作做出決策。

理解了遊戲 AI 的三個核心能力,那就可以解釋研究中的三個核心挑戰及騰訊目前探索的一些解決方案。

第一個挑戰是遊戲的狀態空間過大。比如很多戰略型遊戲的狀態空間是無窮維,遠大於圍棋空間。騰訊提出了一套整合了模型,演算法,與計算體系結構的解決方案,叫做騰訊機器大腦,整個系統的核心是使用深度神經網路來建模超大規模的狀態空間。

第二個挑戰是許多複雜的多玩家遊戲需要多個智慧體協調操作,目前這方面理論比較缺乏。為設計出一個完善的多智慧體 AI,一個核心問題是將強化學習的價值網路與描述巨集觀戰略的行為樹進行互操作,並使其融合。

第三個挑戰是絕大部分遊戲 AI 是用模擬器在一個理想化的虛擬世界中開發。如何打通虛擬與現實,又是一個核心挑戰。我們的解決方案結合反向強化學習及動態探索機制,對遊戲 AI 中的引數進行貝葉斯升級。這樣得到的系統能保證在現實世界花最小的成本,就能成功部署。

這一套感知、對話與決策模組,形成了一套通用系統,未來有望在現實中被應用到更多場景中,這就是我們說的虛擬對現實的賦能。

相關文章