中科大教授吳鋒:多智慧體的分散式線上決策

騰訊AI實驗室發表於2018-04-11

3月15日,騰訊AI Lab第二屆學術論壇在深圳舉行,聚焦人工智慧在醫療、遊戲、多媒體內容、人機互動等四大領域的跨界研究與應用。全球30位頂級AI專家出席,對多項前沿研究成果進行了深入探討與交流。騰訊AI Lab還宣佈了2018三大核心戰略,以及同頂級研究與出版機構自然科研的戰略合作(點選 這裡 檢視詳情)。


騰訊AI Lab希望將論壇打造為一個具有國際影響力的頂級學術平臺,推動前沿、原創、開放的研究與應用探討與交流,讓企業、行業和學界「共享AI+未來」。


吳鋒:中國科學技術大學電腦科學與技術學院副教授


中科大教授吳鋒:多智慧體的分散式線上決策


在下午的“AI+遊戲”論壇上,中國科學技術大學電腦科學與技術學院副教授吳鋒做了主題為《多智慧體分散式線上決策》的演講。


吳鋒博士的主要研究方向為多智慧體系統、自動規劃理論和智慧機器人決策,在 AIJ、IJCAI、 AAAI、NIPS、UAI、AAMAS、ICAPS和ECAI等人工智慧學術會議和期刊上發表論文30餘篇。他曾獲中國科學院院長獎特別獎、中國科學院優秀博士論文獎,以及第14屆智慧體與多智慧體國際會議(AAMAS 2015)最佳應用論文獎。此外,他還是中科大“藍鷹”足球機器人團隊的核心成員,多次參加RoboCup機器人學術競賽,並獲得3項世界冠軍和1項世界亞軍。他曾擔任 AIJ、JAIR、JAAMAS、ACM Trans 等國際人工智慧學術期刊的審稿人,以及AAAI、IJCAI、AAMAS等國際人工智慧學術會議的程式委員會委員。


演講內容


本演講介紹了在以足球為代表的多人競技遊戲中,要求多個智慧體能夠在動態不確定性環境中自主的做出決策,配合隊友與對手對抗並最終贏得比賽。針對這類挑戰性問題,吳鋒教授的團隊發展出了基於馬爾科夫決策過程的技術路線,設計了高效的多智慧體分散式線上決策系統。該系統成功應用於足球機器人中,在國際機器人競賽中連續十年保持世界前二,顯示出了良好的穩定性和適應性。


以下為演講全文(為便於閱讀進行過適當編輯整理):


中科大教授吳鋒:多智慧體的分散式線上決策


大家好,我將分享一下我們在“多智慧體分散式線上決策”方面的研究工作。和前面的幾位專家的強化學習研究方向不同,我們採用的是基於模型(model-based)的方法,這是一種比較經典的用於推理決策的方法。這種方法在資料很少或很難獲得資料的場景中有時也能取得很好的表現。


這是我報告的提綱。首先我會介紹一下我們研究的背景,即遊戲中的智慧決策。然後我會介紹一下我們所採用的模型,即區域性可觀察的隨機博弈。針對這樣的模型和問題,最後我會介紹一下我們設計的高效求解演算法。


首先是我們的背景。作為檢測機器是否具有智慧的一個重要手段,智力遊戲受到了AI研究者的廣泛青睞。從早期的“深藍”到近期的“AlphaGo”,機器每一次戰勝人類的世界冠軍都會引起轟動,成為AI發展史上的一個里程碑。在這類遊戲中,都要求機器能夠做出複雜的決策,並且達到可與人類媲美的水平。當前這類問題的研究逐漸從完全資訊和確定性的棋類遊戲轉向了資訊不完全且具有不確定性的遊戲(比如撲克、《星際爭霸》),並且已經取得了不俗的成果。


中科大教授吳鋒:多智慧體的分散式線上決策


對於《王者榮耀》這樣的多人線上遊戲,它的決策問題也有一些自身的特點;比如玩家需要利用手機螢幕上看到的有限資訊(包括左上角的小地圖)對形勢做出判斷,然後實時做出決策並採取相應操作。同時玩家控制的英雄還具備不同的能力和屬性,有些是肉盾型的(比如坦克和戰士),有些是輸出型的(比如射手和刺客),還有一些是控制型的(比如法師和輔助)。他們之間需要相互配合共同完成殺敵和推塔這樣的任務,同時這樣的任務還具有隨機不確定性;比如在玩遊戲時會有“順風局”和“逆風局”的說法。針對多人線上遊戲問題的研究現在有很多,而且涉及到很多不同的遊戲。


中科大教授吳鋒:多智慧體的分散式線上決策


其中的焦點問題之一是足球遊戲,足球在電子遊戲流行之前就已經風靡全球了。在足球比賽中,球員需要根據視野中獲得的有限資訊做出判斷,決定這個球怎麼踢。不同的球員之間也有不同的能力和一定的屬性,比如有的球員跑得比較快、有的個子比較高、有的耐力比較好、有的射門比較準。不同球員之間不同的身體素質決定了他們不同的能力。但他們之間還需要相互配合,共同完成防禦對手、射門得分等任務。另外足球比賽還具有很強的隨機不確定性,在比賽中經常會出現一些黑馬球隊改寫整個比賽的程式,給大家帶來一些驚喜。


所以,簡單比較我們可以發現,足球問題其實和《王者榮耀》等多人線上遊戲是非常接近的,特別是在決策問題方面,它們具有很多相似性。


中科大教授吳鋒:多智慧體的分散式線上決策


早在 1997 年深藍戰勝人類國際象棋世界冠軍的時候,就有一些頂尖研究者開始尋找下一個挑戰目標了,他們相中了足球。他們在那一年發起了一個學術競賽活動——RoboCup(機器人世界盃)。當時他們制定了極具野心的目標:在 2050 年左右設計出一支能夠戰勝當時的人類世界盃冠軍球隊的機器人球隊。經過了二十多年的發展,RoboCup 已經成為了國際上規模最大且最有影響力的機器人賽事之一。


中科大教授吳鋒:多智慧體的分散式線上決策


RoboCup 中有很多專門針對足球的專案,比如雙足、輪式、模擬。今天我主要介紹的是和多人遊戲最接近的模擬遊戲。在足球模擬競賽中,由於是在電腦上進行模擬,所以能擺脫機器人硬體發展相對滯後的束縛。模擬比賽中採用了與真實足球非常相同的規則,就是每支球隊有 11 個異構球員和 1 個教練,其中 11 個異構球員有不同的能力和屬性(比如跑步速度、耐力等等)。在決策方面,這個問題有一些核心難點,比如資訊有限、需要各個智慧體自主決策、動作帶有很強的不確定性。模擬設計只是對控制和感知方面進行了一些必要的抽象,所以這個問題就更注重球員之間的相互配合和團隊協作。因此,這個問題的研究重點是動態和不確定性環境中的多智慧體系統的決策。


中科大教授吳鋒:多智慧體的分散式線上決策


針對這樣的問題,我們採用了一種稱為“區域性可觀察隨機博弈”的模型(簡稱POSG),可以建模多個智慧體在動態不確定環境中的對抗和合作。在這個模型中它有N個智慧體集合,每個智慧體會在環境中執行相應的動作,執行的動作會導致這個環境發生一定的狀態轉移,然後每個智慧體又會獲得各自的觀察。這是把不確定的多智慧體對抗問題抽象成了動態可觀察的隨機博弈問題。比如在足球中,一個智慧體就是一個球員,能夠執行各種踢球、奔跑的動作,它獲得的觀察是它視野內可以看到的球、隊友以及對手的資訊。比如在《王者榮耀》遊戲中,每個智慧體代表的是一個英雄,每個英雄有自己的動作集和觀察集——不同的英雄有不同的技能,觀察能力也不一樣。


在這個模型中,轉移函式是刻畫每個智慧體的動作效果,觀察函式是建模每個智慧體的感知能力,回報函式是描述每個智慧體的主要任務。我們求解的這個模型的目標是獲得一組策略,以最大化每個智慧體的收益。


中科大教授吳鋒:多智慧體的分散式線上決策


每個智慧體的策略通常可以表示成策略樹的形式。每個智慧體都有自己的策略樹,策略樹的節點代表你需要執行的動作,每條邊表示智慧體在環境中可能獲得的觀察。在執行的時候從根節點開始,根據獲得的一系列觀察執行一個動作序列。


中科大教授吳鋒:多智慧體的分散式線上決策


機器人足球發展的早期,很多球隊都是基於規則的,因為這種方法比較簡單。但是基於規則的方法有個問題:需要人工地為每個機器人寫一棵策略樹,這個過程既複雜又繁瑣,而且也不能保證策略的質量。最重要的是策略樹的分支太多了!在一步決策時,策略樹非常簡單,每個智慧體可能只有兩個策略。在兩步決策時,就變得很多了,但還可以接受。三步的時候就非常多了。六、七步的時候可能就變成了天文數字。事實上,這類問題的策略空間會隨問題的規模呈雙指數爆炸式增長。


中科大教授吳鋒:多智慧體的分散式線上決策


在這麼大的策略空間中,智慧體很難為自己找到最優解。而且每個智慧體在挑選最優策略時不僅要考慮環境狀態的變化,同時還要考慮其它智慧體可能會採取的策略。比如,在足球比賽過程中,你不僅要考慮球的位置和自己的狀態,還要考慮你的隊友或對手可能會採取什麼策略來幫助或制衡你。隊友和對手可能採取的策略會最終決定你自己的策略選擇。也就是說,每個智慧體在進行決策時所需要考慮的因素處在非常高維的空間,而且這個高維空間的維度還會隨問題規模的增大而爆炸式增長。所以我們已經從理論上證明了這類可觀察隨機博弈問題的計算複雜度是 NEXP 難的,比普通的 NP 難問題要複雜得多。


中科大教授吳鋒:多智慧體的分散式線上決策


問題雖然很難,但還是有辦法進行求解。下面介紹一下我們在求解該模型上的一些嘗試。簡單來說,多智慧體的分散式線上規劃就是在線上執行時每個智慧體都獨立執行多步前瞻搜尋,然後選擇一個最優動作來執行。這和很多博弈過程中所採用的蒙特卡羅樹搜尋非常接近,但主要區別在於多智慧體分散式線上規劃的所有智慧體會同時進行決策,而不是一人一步回合制地決策。因此這就需要對其它智慧體的決策進行預判。同時每個智慧體所得到的資訊都是不完全的,沒有全域性資訊,所以需要根據獲得的區域性資訊維護一個信念狀態,即全域性資訊的一個概率分佈。


中科大教授吳鋒:多智慧體的分散式線上決策


更具體地說,我們在前瞻搜尋的時候採取了一個策略,即把多步隨機博弈分解成多個單步子博弈,然後在搜尋樹的每個節點計運算元博弈的均衡解。搜尋結束之後,我們會回溯更新,沿著搜尋路徑更新每個節點的收益函式。此外我們還會根據對手的特點和實際反應來調整整個搜尋過程中的模型引數,因為有些隊伍在某些策略失敗之後可能會轉向其它策略,所以就會存在線上學習的過程。


中科大教授吳鋒:多智慧體的分散式線上決策


這裡有兩個值得一提的關鍵技術。一個是基於關係圖的博弈快速求解,它的主要想法是為每個智慧體指定不同的角色,用智慧體之間的角色和行為的相關性來簡化單步博弈均衡解的計算。比如在足球中有一定的陣型,不同的球員會有不同的角色分配(比如後衛、中場、前鋒)。根據這些資訊就能夠對博弈問題進行快速求解。


中科大教授吳鋒:多智慧體的分散式線上決策


另一個嘗試是針對具體問題的分層規劃。智慧體的行為從上到下會有不同層次,這樣劃分之後就能夠在不同層次上進行處理,從而提高搜尋效率。比如在足球問題中,有“進攻”這樣的高層策略,也有“踢球”這樣的底層具體動作;如果全部一起規劃,問題求解可能就會非常低效。


中科大教授吳鋒:多智慧體的分散式線上決策


最後對我們的研究工作進行一個總結。在這個報告中,我們說到多人線上遊戲中的決策問題可以利用POSG(部分可觀察的隨機博弈)來進行建模,但該問題的求解非常困難,極具挑戰性。我們提出的分散式線上規劃可以有效地求解該類問題,在足球模擬遊戲中表現突出。另外,如何深度結合機器學習來提高效能仍是一個開放性的問題。


此外,我們研究的不僅適用於足球、《王者榮耀》,它其實是比較通用的AI技術。我們也把我們的主要技術用在了實體機器人身上,當前也取得了不錯的效果。


謝謝大家!

相關文章