【控制】《多智慧體機器人系統資訊融合與協調》範波老師-第7章-基於 Markov 對策的多 Agent 協調
第6章 | 回到目錄 | 第8章 |
---|
第7章-基於 Markov 對策的多 Agent 協調
7.1 引言
Nash 均衡是 Markov 對策框架的核心概念,為 Agent 協調的一個標尺。
在博弈論中,納什均衡(英語:Nash equilibrium,或稱納什均衡點)是指在包含兩個或以上參與者的非合作博弈(Non-cooperative game)中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以透過改變自身策略使自身受益時的一個概念解。該術語以約翰·福布斯·納什命名。在博弈論中,如果每個參與者都選擇了自己的策略,並且沒有玩家可以透過改變策略而其他參與者保持不變而獲益,那麼當前的策略選擇的集合及其相應的結果構成了納什均衡。
From: 納什均衡-Wiki百科
Nash 均衡,納什均衡(Nash Equilibrium)。該理論是由著名的經濟學家,博弈論創始人,諾貝爾獎獲得者約翰·納什提出的,也就是電影《美麗心靈》的男主角原型。該理論是說:在非合作類博弈中,存在一種策略組合,使得每個參與人的策略是對其他參與人策略的最優反應。如果參與者當前選擇的策略形成了“納什均衡”,那麼對於任何一位參與者來說,單方更改自己的策略不會帶來任何好處。
約翰·納什證明了在每個參與者都只有有限種策略選擇,並允許混合策略的前提下,納什均衡一定存在。上邊的解釋還是有點拗口,這裡通過幾個例子,更直觀的理解一下這個理論。
From: 通過幾個例子理解博弈論與納什均衡
7.2 多 Agent 互動的協調與博弈分析
7.2.1 多 Agent 協調與博弈的性質
7.2.2 多 Agent 協調失敗的處理
7.3 多 Agent 衝突博弈強化學習模型
協調博弈,是指在博弈所定義的收益空間中,任何均衡點都符合以下條件:即
(1)在給定其他參與人行為策略的條件下,沒有人有激勵改變其行為策略;
(2)沒有參與者希望其他參與者會願意改變其行為。
From: 協調博弈-百度百科
7.3.1 多 Agent 衝突博弈
7.3.2 最優策略
7.3.3 基於後悔值的 Q 學習模型
7.4 Nash-Q 學習
7.5 零和 Markov 對策和團隊 Markov 對策
7.5.1 零和 Markov 對策
7.5.2 團隊 Markov 對策
7.6 基於 Markov 對策的多 Agent 協調策略
7.6.1 對策框架
7.6.2 Team 級對策
7.6.3 Member 級對策
7.6.4 模擬實驗
7.7 小結
相關文章
- 分散式系統協調和協定分散式
- 多機器人協作排程問題機器人
- 基於微控制器的多工輪詢系統
- 策劃入門(八)開發中的溝通與協調
- 基於NCF的多模組協同例項
- INDEMIND:多感測器融合,機器人的必由之路機器人
- 策劃入門(八)開發中的溝通與協調(轉)
- 協調多個物件之間的互動——中介者模式(三)物件模式
- 分散式協調元件Zookeeper之 選舉機制與ZAB協議分散式元件協議
- SIGGRAPH | 多機器人協同三維場景重建機器人
- 生產型機器人啟動分析:基於雲的系統,可對所有OB7協作機器人進行遠端監控機器人
- 增強智慧與人工智慧趨向融合,人機協同新時代正在到來人工智慧
- 基於ROS2的智慧協同系統ROS
- Golang 的 協程排程機制 與 GOMAXPROCS 效能調優Golang
- 生成樹協議與多生成樹協議協議
- 臉書面臨刑事調查!美國對臉書展開刑事調查 資訊分享協議惹的禍協議
- 從需求去理解 Linux dbus與基於dbus協議的無agent軟體管理Linux協議
- 多程序協同的實時資料採集與共享系統
- 分散式系統理論基礎8:zookeeper分散式協調服務分散式
- 總部資訊平臺與企業資訊平臺的設計協調探討
- 基於各種感測器的空調系統監控
- 關於WiFi協議的調製方式詳解WiFi協議
- HTTP協議與前後端聯調HTTP協議後端
- 部落格關於ROS機器人作業系統內容調整說明ROS機器人作業系統
- 聚焦工業資訊保安 | 邊緣智慧與控制協同的安全思考
- 基於紅外和超聲波的手動/自動調速風扇系統
- 【工業機器人】關於工業機器人控制系統,這幾方面內容你必須掌握;如何將工業機器人與數控機床融合應用?機器人
- 加速建立基於人工智慧機器人的自動化系統TMG人工智慧機器人
- 加速建立基於人工智慧機器人的自動化系統MK人工智慧機器人
- appium 支援多機協作嗎APP
- 記hexo寫作圖片與多機器協作問題解決Hexo
- 優傲機器人:人機協作機器人助推電子製造業智慧升級機器人
- "浙江新駿"獨家研發立足於焊接協作機器人,搶佔協作機器人細分賽道機器人
- 關於核心體驗和功能堆積不協調的完美誤差
- 對接多個 Neuron 例項,實現多閘道器協同分析與裝置聯動
- 能迪科技:DDC空調控制系統還是PLC空調控制系統好用?
- Swoole 多協議 多埠 的應用協議
- CVPR 2022 | 多機器人協同主動建圖演算法機器人演算法