北大領銜,多智慧體強化學習研究登上Nature子刊

机器之心發表於2024-09-05
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近日,由北京大學人工智慧研究院楊耀東課題組牽頭完成的研究成果 ——「大規模多智慧體系統的高效強化學習」在人工智慧頂級學術期刊 Nature Machine Intelligence 上發表。

論文第一作者是北京大學人工智慧研究院博士生馬成棟,通訊作者為人工智慧研究院楊耀東助理教授。人工智慧研究院多智慧體中心李阿明研究員和倫敦國王大學杜雅麗教授為共同第一作者。這一成果首次在大規模多智慧體系統中實現了高效的去中心化協同訓練和決策,顯著提升了人工智慧決策模型在大規模多智慧體系統中的擴充套件性和適用性。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00879-7

在大規模多智慧體系統中實現高效的可擴充套件決策是人工智慧領域發展的重要目標之一。多智慧系統主要以龐大的智慧體互動資料為基礎,利用大量計算資源驅動每個智慧體學習如何與其他智慧體合作執行復雜任務,其核心正規化是多智慧體強化學習。近年來,這一領域取得了顯著的進展,誕生了以遊戲人工智慧為代表的一系列應用。現階段兩種主要的學習正規化是中心化學習和獨立學習,中心化學習要求每個智慧體都具有全域性觀察能力,這大幅度增加了演算法複雜性和通訊成本,降低了在大規模系統中的可擴充套件性,而獨立學習雖然降低了系統和演算法的複雜性,但學習過程往往不穩定,導致決策效能較差。

值得注意的是,在遊戲以外的更加真實的場景中,都存在一些客觀的互動限制和不得不考慮成本因素,這使得現有方法難以擴充套件到大規模真實世界多智慧體系統中。一個簡單的例子是,當在城市交通系統中控制交通訊號燈時,頻繁的大規模通訊操作容易增加功率損失和被訊號干擾的機率,並且計算複雜性將隨著交通燈數量的增多而指數級增加。因此,有必要設計能夠在有限資料和客觀通訊約束下,將決策能力擴充套件到包含大量智慧體的複雜真實系統中的多智慧體強化學習方法。

這項研究正是以此出發點,降低了現有多智慧體學習方法對於全域性通訊和大量互動資料的依賴性,實現了強化學習演算法在複雜的大規模系統中的廣泛部署與高效擴充套件,朝著可擴充套件到大規模系統的決策正規化邁出了重要一步。

圖片

圖 1,中心化學習和獨立學習的區別及該研究的出發點和所涉及到的網路化系統型別

在這項研究中,研究團隊對大規模多智慧體系統進行了以智慧體為單位的動力學特性的解耦,將智慧體之間的關係描述為一種拓撲連線結構下的網路化關係,其中包括線狀,環狀,網狀等各種同構 / 異構節點,降低了系統處理的複雜性。在此之前,也有一些研究者以網路化的形式建模智慧體之間的關係從而提升演算法擴充套件性。但這種對於系統的分解具有較強的假設,不一定符合真實世界系統的特性。因此團隊進一步提出了一種更通用的網路化系統模型用來刻畫解耦後多智慧體系統的動力學和真實系統動力學之間的關係,其優勢在於它能夠處理更廣泛的合作多智慧體任務。該概念彌合了標準網路系統和一般多代理系統之間的差距,為去中心化多智慧體系統的研究提供了必要的理論框架和分析工具。

圖片

進一步,基於這種更一般化的網路系統,研究團隊將單智慧體學習中的模型學習理論擴充套件到多智慧體系統中,使智慧體能夠獨立學習區域性狀態轉移、鄰域資訊價值和去中心化策略,將複雜的大規模決策難題轉化為更容易求解的最佳化問題。這樣,大型人工智慧系統即使在樣本資料和資訊互動受限的情況下,也能實現令人滿意的決策效能。早在上世紀 90 年代,強化學習教父 Richard Sutton 就提出了基於模型的方法來學習系統內在的動態特性來輔助策略學習,提升樣本效率。在這項工作中,研究團隊將本地化模型學習與去中心化策略最佳化相耦合,提出了一個基於模型的去中心化策略最佳化方法。該方法是高效且可擴充套件的,在較小的本地資訊大小(當單個智慧體與其他智慧體之間的資訊互動受到限制)下就能近似單調的提升智慧體策略。具體而言,智慧體能夠使用經過充分訓練得到的本地化模型來預測未來狀態,並使用本地通訊來傳遞該預測。

圖片

圖 2,網路系統結構關係及多智慧體模型學習過程

為了緩解模型預測的誤差問題,研究團隊採用了分支推出策略,用許多短時間線推出替換了少數長時間線推出,以減少模型學習和預測中的複合誤差,促進了策略學習過程中的近似單調提升能力:

圖片

研究團隊從理論上進一步證明了系統解耦後所產生的擴充套件值函式和策略梯度是接近真實梯度的近似值,這在去中心化模型學習和單調策略提升之間建立了重要的理論橋樑。
圖片

圖片

多項測試結果表明,該方法能夠擴充套件到具有數百個智慧體的大規模電網和交通等網路化系統中,在較低的通訊成本下實現較高的決策效能。

圖片

圖 3,研究方法在智慧交通控制場景中的效果

使用了該方法控制的訊號燈能夠僅透過接收相鄰路口的車流資訊調控複雜的交通流。這是因為在網路化結構的設計下,整體交通狀況已經透過城市路網間接地傳遞並彙總到相鄰路口,透過分析這些相鄰路口的觀測資訊,就能推斷和預測整個城市的車流變化,從而做出最優決策。在智慧電網上的效果也驗證了方法的可擴充套件性,能夠在具有上百個節點的電力網路中實現較低的電能損耗。

圖片

圖 4,研究方法在智慧電網控制場景中的效果

研究團隊負責人楊耀東表示:「未來我們將繼續深入推進多智慧體學習理論與方法的研究,並賦能具身智慧和世界模型等前沿人工智慧領域,顯著提升更廣泛的智慧系統在協作、預測和決策方面的能力,使其在複雜動態環境中更加靈活高效的執行任務。同時,我們還將推動這些研究成果在智慧交通、智慧電網等領域的應用,促進科技成果的快速轉化,為社會創造更大價值。」

相關文章