大資料文摘編輯部出品
從足球競技到戰爭,團隊合作一直被認為是人類社會進步的基石。基於長遠的共同目標,弱化甚至犧牲個人利益,促成了人類作為共同體的最大利益。
DeepMind也正嘗試讓人工智慧學會這一點,並且選擇了最有可能顯示團隊合作的考核方式——足球比賽。
今天凌晨,DeepMind釋出了最新研究:證明了在足球環境下,一種基於分散式代理的連續控制培訓框架,結合獎勵渠道的自動優化,可以實現多智慧體端到端的學習。
簡單來說就是,DeepMind設定了環境,讓多個AI一起踢足球賽。並且提前設定了規則,獎勵整隻“足球隊”而不去鼓勵某個"AI球員”的個人成績,以促成整個球隊的進步。用這種方式證明了,AI也是可以相互合作的!
先附上論文連結:https://arxiv.org/pdf/1902.07151.pdf
這篇論文被ICLP 2019收錄。
通過競爭,實現緊急協調的多方協作
通過競爭,實現緊急協調的多方協作
多智慧體通過協作,完成團隊最優目標並不是一個陌生的話題,去年,OpenAI就曾釋出了由五個神經網路組成的DOTA團戰AI團隊——OpenAI Five ,並在5v5中擊敗了頂級人類玩家團隊。比賽中,OpenAI Five也展示了,在勝利是以摧毀防禦塔為前提的遊戲中,犧牲“小兵”利益是可以被接受的,也就是說,AI是可以朝著長期目標進行優化的。
DeepMind的最新研究進一步專注於多智慧體(multi-agent)這一領域。
他們組織了無數場2v2的AI足球比賽,並設定了規則,一旦有一方得分或者比賽超過45秒,比賽就結束。
DeepMind稱,通過去中心化的、基於群體的訓練可以使得代理人的行為不斷髮展:從隨機,簡單的追球,到最後的簡單“合作”。他們的研究還強調了在連續控制的大規模多智慧體訓練中遇到的幾個挑戰。
值得一提的是,DeepMind通過設定自動優化的簡單獎勵,不鼓勵個體,而去鼓勵合作行為和團隊整體的成績,可以促成長期的團隊行為。
在研究中通過引入一種“基於單獨折扣因子來形成自動優化獎勵的思想”,可以幫助他們的代理從一種短視的訓練方式,過渡到一種長時間但更傾向於團隊合作的訓練模式當中。
DeepMind也進一步提出了一個以博弈論原理為基礎的評估方案,可以在沒有預定義的評估任務或人類基線的情況下評估代理的表現。
具體思想
具體思想
將足球比賽看做一個多智慧體強化學習(MARL)的過程,模擬一個可互動的環境,智慧主體通過學習與環境互動,然後優化自己累計獎勵。MARL的主題思想是協作或競爭,亦或兩者皆有。選擇什麼樣的行為,完全取決於“報酬獎勵”的設定。MARL的目標是典型的馬爾科夫完美均衡。大致意思是尋找隨機博弈中達到均衡條件的混合策略集合。
具體意思是:博弈參與者的行動策略有馬爾科夫特點,這意味著每個玩家的下一個動作是根據另一個玩家的最後一個動作來預測的,而不是根據先前的行動歷史來預測的。馬爾科夫完美均衡是:基於這些玩家的動作尋找動態均衡。
DeepMind在github上釋出了他們使用的MuJoCo Soccer環境,這是一個競爭協作多智慧體互動的開源研究平臺,在機器學習社群已經得到了相當廣泛的使用。
github地址:https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer
評估
相關比賽視訊連結:https://youtu.be/wPtF_ygW2ss
為了有效地評估學習團隊,DeepMind選擇優化評估方法,所選團隊都是以前由不同評估方法產生的10個團隊,每個團隊擁有250億次的學習經驗。他們在10個團隊中收集了一百萬種比賽情況。
上圖顯示了支援團隊的3個智慧體顯示的成對預期目標差異。納什均衡要求3個團隊的權重都是非零的,這些團隊協作展示了具有非傳遞效能的不同策略,這是評估方案中並不存在的:團隊A在59.7%的比賽中贏得或打平團隊B; 團隊B在71.1%的比賽中贏得或打平團隊C,團隊C在65.3%的比賽中贏得或打平團隊A.,他們展示了團隊A,B和C之間的示例比賽的記錄,可以定性地量化其策略的多樣性。
在上圖中,DeepMind展示了代理行為的典型軌跡:在5B步驟中,當代理更個性化地行動時,我們觀察到無論blue1的位置如何,blue0總是試圖自己運球。但在訓練的後期,blue0則積極尋求團隊合作,其行為呈現出由其隊友驅動的特點,顯示出高水平的協調精神。特別是在“8e10_left”這一場比賽中中,DeepMind稱他們觀察到了兩次連續傳球(blue0到blue1和後衛),這是在人類足球比賽中經常出現的2對1撞牆式配合。
未來研究
未來研究
DeepMind此項研究意義重大,將2v2足球領域引入多智慧體協作是以前沒有過的研究,通過強化學習研究,利用競爭與合作來訓練獨立智慧個體,展示了團隊的協調行為。
這篇論文也證明了一種基於連續控制的分散式叢集訓練框架,可以結合獎勵路徑自動優化,因此,在這種環境下可以進行進行端到端的學習。
其引入了一種思想,將獎勵方向從單策略行為轉變為長期團隊合作。引入了一種新的反事實政策評估來分析主題策略行為。評估強調了匹配結果中的非傳遞性和對穩健性的實際需求。
DeepMind開源的訓練環境可以作為多智慧體研究的平臺,也可以根據需要擴充套件到更復雜的智慧體行為研究,這為未來的研究打下堅實的基礎。