ICLR 2022 | 基於心智理論的多智慧體通訊與合作

北京大學前沿計算研究中心發表於2022-07-18

論文連結:https://arxiv.org/abs/2111.09189

01 研究背景


多智慧體合作是多智慧體系統中的一個重要問題。我們希望每個智慧體能夠基於有限的區域性觀察獨立地進行決策,但在整體上又和其餘智慧體一起構成團隊完成共同任務。為了更好地實現合作,我們一般需要允許智慧體之間通訊交流重要資訊以避免衝突。此前多智慧體合作的相關工作大多數依賴集中訓練分佈執行(CTDE)框架隱式地指導智慧體學習適應他人的行為模式,泛化性較差。而多智慧體通訊的相關工作則大都無法避免引入一個廣播通道,通訊代價較高。

為了解決多智慧體合作問題,我們可以借鑑人類合作的機制。認知學的相關研究表明人類在合作的過程中相當依賴一種能力——“心智理論”(Theory of Mind)。具體而言,人類能夠透過觀察他人來推測他人的心理狀態,包括意圖、信念、慾望等等。基於這些推測,人類能更好地調整自身的行動以配合他人。在這篇論文中,我們將這種能力賦予智慧體,使其在自身決策之前先對其他智慧體的意圖和觀察做出推斷,然後基於這些推斷點對點選擇通訊物件,最後綜合觀察、推測和收到的資訊做出決策。

02 方   法


在本文中,我們主要關注 Target-oriented Multi-agent Cooperation (ToMAC) 這一類合作問題。這類問題中環境存在複數個目標,智慧體需要合作地調整他們與目標之間的關係來完成任務。例如多個智慧體需要合作收集環境中的多個物體,或者分別導航至多個目的地。對此我們提出了基於心智理論的多智慧體通訊與合作框架 ToM2C(圖1)。每個智慧體首先從環境中獲取區域性觀察,然後使用 ToM 網路推測其餘智慧體的觀察內容以及它們下一步將要選擇的目標。此後,每個智慧體將區域性觀察和推斷得到的資訊編碼為圖神經網路中的結點和邊特徵,透過取樣得到通訊連線。通訊的內容是推測的接收方將要選擇的目標。最後,每個智慧體結合自己的觀察,推斷的他人目標以及接受到的資訊,選擇自己下一步的目標。

模型的訓練大致分為兩部分:ToM 網路的訓練和其餘部分的訓練。ToM 網路訓練採取監督學習的方式,使用他人實際選擇的目標和實際的觀察作為標籤。其餘部分的訓練透過多智慧體強化學習端到端的完成。為了防止ToM網路和策略網路在訓練時之間互相影響導致難以收斂,我們將二者的訓練分開,在訓練其中一部分時凍結另一部分的引數。

為了進一步提高通訊效率,我們還提出了一種 Communication Reduction 方法。具體而言,如果某一時刻一個智慧體接收通訊與否不影響最後的決策,那麼我們就把所有通往這個智慧體的通訊連線標記為冗餘,然後使用監督學習對 message sender 網路進行調整。

圖1. ToM2C框架

03 實   驗


我們在兩個環境中分別進行了實驗。Cooperative Navigation (CN) 中 N 個智慧體需要合作分別去往 N 個目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 個感測器需要合作覆蓋M個移動的目標(圖2)。

圖2. 兩種實驗環境

實驗表明,ToM2C 不僅使合作更為成功(圖3),同時通訊代價遠低於其他 SOTA 方法(圖4)。我們還進一步測試了 ToM2C 的泛化效能。在 MSMTC 環境中,我們分別使用 ToM2C 和 HiT-MAC (baseline) 在4感測器5目標的設定下訓練模型,然後將它們 zero-shot transfer 到不同數量的情況(2~10個感測器/2~10個目標)。結果表明 ToM2C 具有優秀的泛化效能(圖5)。

圖3. 在MSMTC環境中的學習曲線和消融實驗

圖4. CN(左)和MSMTC(右)環境中各模型的通訊頻寬

圖5. MSMTC環境中ToM2C和HiT-MAC的泛化效能對比,顏色越均勻則泛化性越好

04 總   結


在這篇論文中我們基於心智理論設計了一種新穎的多智慧體通訊與合作的機制 ToM2C。智慧體透過推測他人的觀察和目標來輔助通訊選擇和個體決策。此外,一種減少冗餘通訊的方法也被用於進一步提高通訊效率。實驗表明這一機制能夠促進合作,降低通訊代價並且具有良好的泛化性。

圖文 | 王遠非

Computer Vision and Digital Art (CVDA)

相關文章