【控制】《多智慧體機器人系統資訊融合與協調》範波老師-第7章-基於 Markov 對策的多 Agent 協調
第6章 | 回到目錄 | 第8章 |
---|
第7章-基於 Markov 對策的多 Agent 協調
7.1 引言
Nash 均衡是 Markov 對策框架的核心概念,為 Agent 協調的一個標尺。
在博弈論中,納什均衡(英語:Nash equilibrium,或稱納什均衡點)是指在包含兩個或以上參與者的非合作博弈(Non-cooperative game)中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以透過改變自身策略使自身受益時的一個概念解。該術語以約翰·福布斯·納什命名。在博弈論中,如果每個參與者都選擇了自己的策略,並且沒有玩家可以透過改變策略而其他參與者保持不變而獲益,那麼當前的策略選擇的集合及其相應的結果構成了納什均衡。
From: 納什均衡-Wiki百科
Nash 均衡,納什均衡(Nash Equilibrium)。該理論是由著名的經濟學家,博弈論創始人,諾貝爾獎獲得者約翰·納什提出的,也就是電影《美麗心靈》的男主角原型。該理論是說:在非合作類博弈中,存在一種策略組合,使得每個參與人的策略是對其他參與人策略的最優反應。如果參與者當前選擇的策略形成了“納什均衡”,那麼對於任何一位參與者來說,單方更改自己的策略不會帶來任何好處。
約翰·納什證明了在每個參與者都只有有限種策略選擇,並允許混合策略的前提下,納什均衡一定存在。上邊的解釋還是有點拗口,這裡通過幾個例子,更直觀的理解一下這個理論。
From: 通過幾個例子理解博弈論與納什均衡
7.2 多 Agent 互動的協調與博弈分析
7.2.1 多 Agent 協調與博弈的性質
7.2.2 多 Agent 協調失敗的處理
7.3 多 Agent 衝突博弈強化學習模型
協調博弈,是指在博弈所定義的收益空間中,任何均衡點都符合以下條件:即
(1)在給定其他參與人行為策略的條件下,沒有人有激勵改變其行為策略;
(2)沒有參與者希望其他參與者會願意改變其行為。
From: 協調博弈-百度百科
7.3.1 多 Agent 衝突博弈
7.3.2 最優策略
7.3.3 基於後悔值的 Q 學習模型
7.4 Nash-Q 學習
7.5 零和 Markov 對策和團隊 Markov 對策
7.5.1 零和 Markov 對策
7.5.2 團隊 Markov 對策
7.6 基於 Markov 對策的多 Agent 協調策略
7.6.1 對策框架
7.6.2 Team 級對策
7.6.3 Member 級對策
7.6.4 模擬實驗
7.7 小結
相關文章
- 多機器人協作排程問題機器人
- 基於微控制器的多工輪詢系統
- 基於HLS的多媒體防盜方案調研
- SIGGRAPH | 多機器人協同三維場景重建機器人
- 多程序協同的實時資料採集與共享系統
- ICLR 2022 | 基於心智理論的多智慧體通訊與合作ICLR智慧體
- INDEMIND:多感測器融合,機器人的必由之路機器人
- 基於NCF的多模組協同例項
- 從需求去理解 Linux dbus與基於dbus協議的無agent軟體管理Linux協議
- 生產型機器人啟動分析:基於雲的系統,可對所有OB7協作機器人進行遠端監控機器人
- 分散式協調元件Zookeeper之 選舉機制與ZAB協議分散式元件協議
- 基於 LLM 的智慧運維 Agent 系統設計與實現運維
- 基於ROS2的智慧協同系統ROS
- Golang 的 協程排程機制 與 GOMAXPROCS 效能調優Golang
- AutoTiKV:基於機器學習的資料庫調優機器學習資料庫
- 生成樹協議與多生成樹協議協議
- CVPR 2022 | 多機器人協同主動建圖演算法機器人演算法
- 聚焦工業資訊保安 | 邊緣智慧與控制協同的安全思考
- 增強智慧與人工智慧趨向融合,人機協同新時代正在到來人工智慧
- 基於各種感測器的空調系統監控
- 資料排程元件:基於Azkaban協調時序任務執行元件
- 分散式系統理論基礎8:zookeeper分散式協調服務分散式
- Swift多執行緒:使用Thread進行多執行緒間通訊,協調子執行緒任務Swift執行緒thread
- 基於UDP協議的乙太網資料收發控制器UDP協議
- OA軟體之通訊錄管理,打通外部、內部溝通與協調
- 臉書面臨刑事調查!美國對臉書展開刑事調查 資訊分享協議惹的禍協議
- appium 支援多機協作嗎APP
- 關於WiFi協議的調製方式詳解WiFi協議
- 基於紅外和超聲波的手動/自動調速風扇系統
- 對接多個 Neuron 例項,實現多閘道器協同分析與裝置聯動
- 部落格關於ROS機器人作業系統內容調整說明ROS機器人作業系統
- 能迪科技:DDC空調控制系統還是PLC空調控制系統好用?
- Flutter:TabController簡單協調TabBar與TabViewFlutterControllertabBarView
- HTTP協議與前後端聯調HTTP協議後端
- [資訊抽取]基於ERNIE3.0的多對多資訊抽取演算法:屬性關係抽取演算法
- 1688 商家基於 HarmonyOS 的多屏協同直播技術方案
- 加速建立基於人工智慧機器人的自動化系統TMG人工智慧機器人
- 加速建立基於人工智慧機器人的自動化系統MK人工智慧機器人