ICLR 2020 多智慧體強化學習論文總結

rockray21發表於2020-09-29

如有錯誤,歡迎指正

本篇為自我學習過程中的要點記錄,僅作學習使用。
所引用內容的連結將全部貼上於下方,如有侵權,請與本人聯絡。

所引用內容連結

感謝這篇彙總
ICLR 2020 強化學習相關論文合集: https://zhuanlan.zhihu.com/p/134589960.

Multi-Agent RL

1.Multi-agent Reinforcement Learning For Networked System Control

Tianshu Chu · Sandeep Chinchali · Sachin Katti

研究了網路化系統控制中的多智慧體強化學習(MARL)。具體地說,每個agent基於本地觀察和來自連線鄰居的訊息來學習分散控制策略。我們將這種網路化MARL(NMARL)問題描述為一個時空Markov決策過程,並引入空間折扣因子來穩定每個區域性agent的訓練。此外,我們提出了一種新的可微通訊協議NeurComm,以減少NMARL中的資訊丟失和非平穩性。通過在自適應交通訊號控制和協同自適應巡航控制的實際NMARL場景下的實驗,適當的空間折扣因子有效地增強了非通訊MARL演算法的學習曲線,而NeurComm在學習效率和控制效能上都優於現有的通訊協議。

通訊場景

2.Intrinsic Motivation For Encouraging Synergistic Behavior

Rohan Chitnis · Shubham Tulsiani · Saurabh Gupta · Abhinav Gupta

我們研究了在稀疏獎勵協同任務中,內在動機作為強化學習的一種探索偏向的作用。協同任務是多個主體必須協同工作才能達到各自無法達到的目標。我們的核心思想是,協同任務中內在動機的一個好的指導原則是,採取影響世界的行動,而這些動作是智慧體無法自己實現的。因此,我們建議激勵智慧體採取(聯合)行動,其效果無法通過每個單獨智慧體的預測效果的組合來預測。我們研究了這一思想的兩個例項,一個基於遇到的真實狀態,另一個基於與策略同時訓練的動力學模型。前者比較簡單,後者的優點是對所採取的行動具有可分析的可微性。我們驗證了我們的方法在機器人雙手操作和稀疏獎勵的多智慧體運動任務中的有效性;我們發現我們的方法比兩種方法都能產生更有效的學習效果:1)僅使用稀疏獎勵的訓練;2)使用典型的基於驚喜的內在動機公式,該公式不偏向協同行為。專案網頁上提供了視訊:https://sites.google.com/view/iclr2020-synergistic.

協同行為,機器人場景

3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies

Sungryull Sohn · Hyunjae Woo · Jongwook Choi · Honglak Lee

我們提出並解決了一個新的少樣本RL問題,其中任務的特徵是一個子任務圖,該子任務圖描述了一組子任務及其對agent的依賴性。agent需要在適應階段快速適應任務,在適應階段只需幾個回合就可以使測試階段的回報最大化。與直接學習元策略不同,我們開發了一種基於子任務圖推理(MSGI)的元學習器,它通過與環境的互動來推斷任務的潛在引數,並在給定的潛在引數下獲得最大的收益。為了促進學習,我們採用了一種內在的獎勵,這種獎勵來自於鼓勵有效探索的上限(UCB)。在兩個網格世界域和星際爭霸II環境下的實驗結果表明,該方法能夠準確地推斷出潛在任務引數,並且比現有的元RL和層次RL方法更有效地適應。

與元強化相結合,星際環境

4.Multi-agent Interactions Modeling With Correlated Policies

Minghuan Liu · Ming Zhou · Weinan Zhang · Yuzheng Zhuang · Jun Wang · Wulong Liu · Yong Yu

在多智慧體系統中,由於智慧體之間的高度關聯性,導致了複雜的互動行為。然而,以往從演示中建模多智慧體互動的工作主要侷限於假設策略及其獎勵結構之間的獨立性。本文將多智慧體互動建模問題轉化為一個多智慧體模擬學習框架,通過對對手策略的逼近,對相關策略進行顯式建模,從而恢復能夠重新生成相似互動的agent策略。因此,我們開發了一個具有相關策略的分散對抗性模擬學習演算法(CoDAIL),該演算法允許分散訓練和執行。各種實驗表明,CoDAIL可以更好地在演示者附近重新生成複雜的互動,並且優於最先進的多智慧體模擬學習方法。

5.nfluence-based Multi-agent Exploration

Tonghan Wang* · Jianhao Wang* · Yi Wu · Chongjie Zhang

本質激勵強化學習旨在解決稀疏獎勵任務的探索挑戰。然而,在依賴於軌跡的多智慧體環境下,對探索方法的研究在很大程度上是空白的。我們的目標是朝著解決這個問題邁出一步。我們提出了兩種探索方法:資訊理論影響下的探索(EITI)和決策理論影響下的探索(EDTI),利用互動作用在agent協調行為中的作用。EITI利用相互資訊來捕捉影響軌跡的動態。EDTI使用一種新的內在獎勵,稱為互動價值(VoI),來描述和量化一個agent的行為對其他agent的預期回報的影響。通過優化EITI或EDTI目標作為正則化器,鼓勵agent協調他們的探索和學習策略,以優化團隊績效。我們展示瞭如何優化這些正則化器,以便它們可以很容易地與策略梯度強化學習整合。由此產生的更新規則將協調探索與內在報酬分配聯絡起來。最後,我們實證地證明了我們的方法在各種多智慧體場景中的顯著優勢。

在協同開門的小遊戲上做的測試

6.Learning Nearly Decomposable Value Functions Via Communication Minimization

Tonghan Wang* · Jianhao Wang* · Chongyi Zheng · Chongjie Zhang

強化學習在多智慧體環境中遇到了諸如可伸縮性和非平穩性等主要挑戰。近年來,價值函式分解學習成為解決協同多智慧體系統中這些挑戰的一種很有前途的方法。然而,現有的方法主要集中在學習完全分散的價值函式上,這對於需要交流的任務來說效率不高。針對這一侷限性,本文提出了一種新的基於通訊最小化的可分解Q函式學習框架,在這種框架下,智慧體大部分時間都是自己行動的,但偶爾也會向其他智慧體傳送訊息,以便進行有效的協調。該框架通過引入兩個資訊理論正則化因子,將價值函式分解學習與交流學習相結合。這些正則化器最大化了agent的行為選擇和通訊訊息之間的互資訊,同時最小化了agent之間的訊息熵。我們展示瞭如何以一種易於與現有的值函式因式分解方法(如QMIX)整合的方式優化這些正則化器。最後,我們證明,在星際爭霸單元微控制基準測試中,我們的框架顯著優於基線方法,允許我們在不犧牲效能的情況下切斷80%以上的通訊。

7.Learning Expensive Coordination: An Event-based Deep Rl Approach

Zhenyu Shi* · Runsheng Yu* · Xinrun Wang* · Rundong Wang · Youzhi Zhang · Hanjiang Lai · Bo An

現有的深層多智慧體強化學習(MARL)的研究主要集中在協調協作Agent共同完成某些任務上。然而,在現實世界的許多情況下,agent是自利的,例如公司的僱員和聯盟中的俱樂部。因此,領導者,即公司或聯盟的經理,需要向追隨者提供獎金,以實現有效的協調,我們稱之為代價高昂的協調。昂貴協調的主要困難是:i)領導者在分配獎金時必須考慮長期效應並預測跟隨者的行為;ii)追隨者之間複雜的互動作用使得訓練過程難以收斂,尤其是當領導者的策略隨著時間變化時。在這項工作中,我們通過基於事件的深層RL方法來解決這個問題。我們的主要貢獻有三個方面。(1) 我們將領導者的決策過程建模為半馬爾可夫決策過程,並提出一種新的基於多智慧體事件的策略梯度來學習領導者的長期策略。(2) 我們利用主從一致性方案設計了跟隨者感知模組和跟隨者特定注意模組,以預測跟隨者的行為並對其行為做出準確的響應。(3) 我們提出了一種基於動作抽象的策略梯度演算法,以減少跟隨者的決策空間,從而加快跟隨者的訓練過程。在資源收集、導航和捕食者-食餌博弈中的實驗表明,我們的方法大大優於現有的方法。

環境是基本的多智慧體環境,提出了新的演算法

8.Evolutionary Population Curriculum For Scaling Multi-agent Reinforcement Learning

Qian Long* · Zihan Zhou* · Abhinav Gupta · Fei Fang · Yi Wu† · Xiaolong Wang†

在多agent博弈中,環境的複雜性隨著agent數量的增加而呈指數級增長,因此在agent數量龐大的情況下,學習好的策略顯得尤為困難。本文介紹了進化種群課程(EPC),它是一種通過逐步增加多智慧體強化學習(MARL)的課程學習正規化。此外,EPC使用一種進化的方法來解決整個課程中的一個客觀偏差問題:在早期階段成功地訓練出一個小規模群體的agent,不一定是適應具有規模化人口的後期階段的最佳人選。具體來說,EPC在每個階段維護多個agent集,對這些agent集進行混合匹配和微調,並提升對下一個階段具有最佳適應性的agent集。我們在一個流行的MARL演算法MADDPG上實現了EPC,並通過經驗證明,隨著agent數量的指數級增長,我們的方法始終比基線效能高出很多。

基本的環境:捕食,對抗,合作找食

9.Cm3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning

Jiachen Yang · Alireza Nakhaei · David Isele · Kikuo Fujimura · Hongyuan Zha

各種協作多agent控制問題要求agent在實現個體目標的同時,為集體成功做出貢獻。這種多目標多agent設定給最近的演算法帶來困難,因為兩個新挑戰主要針對具有單一全球獎勵的目標設定:有效探索學習個人目標實現和合作以獲得他人成功,以及不同agent動作與目標之間相互作用的信用分配。為了解決這兩個挑戰,我們將問題重構為一個新的兩階段課程,在學習多agent合作之前學習單agent目標實現,並推匯出一種具有信用函式的多目標多agent策略梯度,用於區域性信用分配。我們使用功能增強方案來連線課程的價值和策略方程。完整的架構CM3在三個具有挑戰性的多目標多agent問題上學習速度明顯快於現有演算法的直接適應性:在困難編隊中進行協作導航,在SUMO交通模擬器中協商多車輛車道變化,以及在跳棋環境中進行戰略合作

10.Learning To Coordinate Manipulation Skills Via Skill Behavior Diversification

Youngwoon Lee · Jingyun Yang · Joseph J. Lim

在掌握一項複雜的操作任務時,人類往往將任務分解為身體各部分的子技能,獨立地練習這些子技能,然後共同執行這些子技能。類似地,具有多個末端執行器的機器人可以通過協調每個末端執行器的子技能來執行復雜的任務。為了實現技能的時間和行為協調,我們提出了一個模組化的框架,該框架首先對每個終端效應器的子技能進行技能行為多樣化的訓練,然後學習如何利用技能的不同行為來協調終端效應器。我們證明,我們提出的框架能夠有效地協調技能來解決具有挑戰性的協同控制任務,例如拿起一根長棒,在容器內放置一個塊,同時用兩個機器人手臂推動容器,以及用兩個螞蟻代理推箱子。視訊和程式碼可在https://clvrai.com/coordination

機器人控制

11.Action Semantics Network: Considering the Effects of Actions in Multiagent Systems

Weixun Wang · Tianpei Yang · Yong Liu · Jianye Hao · Xiaotian Hao · Yujing Hu · Yingfeng Chen · Changjie Fan · Yang Gao

在多智慧體系統(MASs)中,每一個智慧體都會做出單獨的決策,但所有這些決策都會對系統的全域性演化做出貢獻。大規模學習是困難的,因為每個主體的行為選擇必須在其他共同學習主體在場的情況下進行。此外,環境隨機性和不確定性隨著agent數量的增加呈指數級增加。以前的工作將各種多智慧體協調機制引入深度學習架構,以促進多智慧體的協調。然而,它們都沒有明確地考慮到agent之間的動作語義,不同的行為對其他agent的影響不同。在本文中,我們提出了一種新的網路架構,命名為動作語義學網路(ASN),它可以明確地表示agent間的動作語義學。ASN根據不同智慧體之間的動作語義,利用神經網路來表徵不同動作對其他智慧體的影響。ASN可以很容易地與現有的深度強化學習(DRL)演算法相結合來提高其效能。在星際爭霸II小遊戲和神經MMO上的實驗結果表明,與幾種網路架構相比,ASN顯著提高了最先進的DRL方法的效能。

總結

ICLR 2020 強化學習論文106篇中有十幾篇是關於多智慧體強化的(可能有沒有統計上的,歡迎指出)總體感覺針對多智慧體的研究沒有特別熱門。

相關文章