處理單一任務是強化學習的基礎,它的目標是在不確定的環境中採取最佳行動,產生相對於任務的最大長期回報。但是在多代理強化學習中,因為存在多個代理,所以代理之間的關係可以是合作的,也可以是對抗,或者兩者的混合。多代理的強化學習引入了更多的複雜性,每個代理的狀態不僅包括對自身的觀察,還包括對其他代理位置及其活動的觀察。
在訓練對抗的多代理模型時,目標一般是讓所有競爭的代理透過達到一種稱為納什均衡的博弈狀態來發現對抗對手的最佳策略。所以對抗性多代理強化學習可以適應和建模現實世界的問題,如公司間或國家間的經濟競爭。
而對於協作式多代理學習,其目標是讓多個代理朝著某個目標進行協作。這可能涉及到代理之間的“溝通”,例如學習如何在實現長期目標的協作中專注於完成特定的子任務。協作式多代理強化學習可以應用於現實環境,例如在倉庫操作中操作一隊機器人,甚至是一輛自動駕駛計程車。
在本文中我們將只關注合作多代理學習的問題,不僅因為它在我們日常生活中更常見,而對於我們學習來說也相對的簡單一些。