【控制】《多智慧體機器人系統資訊融合與協調》範波老師-第7章-基於 Markov 對策的多 Agent 協調

Zhao-Jichao發表於2020-12-23
第6章回到目錄第8章

7.1 引言

Nash 均衡是 Markov 對策框架的核心概念,為 Agent 協調的一個標尺。

在博弈論中,納什均衡(英語:Nash equilibrium,或稱納什均衡點)是指在包含兩個或以上參與者的非合作博弈(Non-cooperative game)中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以透過改變自身策略使自身受益時的一個概念解。該術語以約翰·福布斯·納什命名。在博弈論中,如果每個參與者都選擇了自己的策略,並且沒有玩家可以透過改變策略而其他參與者保持不變而獲益,那麼當前的策略選擇的集合及其相應的結果構成了納什均衡。
From: 納什均衡-Wiki百科

Nash 均衡,納什均衡(Nash Equilibrium)。該理論是由著名的經濟學家,博弈論創始人,諾貝爾獎獲得者約翰·納什提出的,也就是電影《美麗心靈》的男主角原型。該理論是說:在非合作類博弈中,存在一種策略組合,使得每個參與人的策略是對其他參與人策略的最優反應。如果參與者當前選擇的策略形成了“納什均衡”,那麼對於任何一位參與者來說,單方更改自己的策略不會帶來任何好處。
約翰·納什證明了在每個參與者都只有有限種策略選擇,並允許混合策略的前提下,納什均衡一定存在。上邊的解釋還是有點拗口,這裡通過幾個例子,更直觀的理解一下這個理論。
From: 通過幾個例子理解博弈論與納什均衡

7.2 多 Agent 互動的協調與博弈分析

7.2.1 多 Agent 協調與博弈的性質

7.2.2 多 Agent 協調失敗的處理

7.3 多 Agent 衝突博弈強化學習模型

協調博弈,是指在博弈所定義的收益空間中,任何均衡點都符合以下條件:即
(1)在給定其他參與人行為策略的條件下,沒有人有激勵改變其行為策略;
(2)沒有參與者希望其他參與者會願意改變其行為。
From: 協調博弈-百度百科

7.3.1 多 Agent 衝突博弈

7.3.2 最優策略

7.3.3 基於後悔值的 Q 學習模型

7.4 Nash-Q 學習

7.5 零和 Markov 對策和團隊 Markov 對策

7.5.1 零和 Markov 對策

7.5.2 團隊 Markov 對策

7.6 基於 Markov 對策的多 Agent 協調策略

7.6.1 對策框架

7.6.2 Team 級對策

7.6.3 Member 級對策

7.6.4 模擬實驗

7.7 小結

相關文章