這三個博弈論新趨勢,正深刻影響深度強化學習

視學演算法發表於2020-04-06

作者 | Jesus Rodriguez

編譯 | 亞爾曼•佩皮

校對 | 叢末 & Camel

來源 | AI科技評論

博弈論在現代人工智慧(AI)解決方案中正扮演著至關重要的角色,深度強化學習(DRL)正是積極擁抱博弈論的頭等公民。

從單智慧體程式到複雜的多智慧體深度強化學習環境,博弈論原理貫穿了 AI 程式的整個生命週期。而反過來,DRL 的快速演化也重新激發了人們對博弈論研究的關注。

目前,大多數 DRL 模型事實上還停留在傳統的博弈論層面,例如納什均衡或零和遊戲等。但隨著DRL的發展,傳統博弈論方法已經逐漸呈現出不足之處,而同時則有一些新的博弈論方法被納入到人工智慧的程式當中。

因此,對於我們來說,若想進一步優化深度強化學習的模型,考慮融入新的博弈論方法,是值得考量的一個方向。

以下三個,正是在深刻影響 DRL 的「新」博弈論方法,或許用到你的模型中會大大改觀模型的效能。

一、平均場博弈(Mean Field Games)

在博弈論家族中,平均場博弈(MFG)還是一個相對較新的領域。

平均場博弈論誕生於 2006 年,這一理論是由兩個團隊獨立提出的,一個是蒙特利爾的 Minyi Huang、Roland Malhame 和 Peter Gaines,另一個是巴黎的 Jean-Michel Lasry和菲爾茲獎獲得者 Pierre-Louis Lions。

從概念上講,平均場博弈論是一套方法和技術的組合,它被用來研究由「理性博弈方」組成的大群體下的差異化博弈。這些智慧體不僅對自身所處的狀態(如財富、資金)有偏好,還關注其他智慧體在整個樣本分佈中所處的位置。平均場博弈理論正是針對這些系統對廣義納什均衡進行了研究。

平均場博弈的經典案例是,如何訓練魚群朝相同方向遊,或者以協作方式遊。

這個現象很難用理論解釋,但它的本質事實上是,魚會根據最靠近的魚群的行為做出反映。再具體點兒,每條魚並不在乎其他單個魚的行為,而是關注附近作為一個整體、統一移動的魚群做出的行為。

這三個博弈論新趨勢,正深刻影響深度強化學習

如果我們用數學方程表述這個原理,一方面可以用 Hamilton-Jacobi-Bellman 方程來描述魚對周邊魚群的反應,另一方面則可以用 Fokker-Planck-Kolmogoroy 方程來表示決定整個魚群行動的所有魚的行為集合。

平均場博弈理論就是這兩個等式的組合。

從深度強化學習的角度來說,在研究大範圍環境中 大量智慧體的表現方面,平均場博弈論扮演著重要的角色。

實驗和理論已經證實,在“接近無限多智慧體、並假設採用不精確的概率模型進行操作”的環境中,已有的 DRL的方法並不具備現實可用性。

而 MFG 卻是模擬這類 DRL 環境的一個有意思的方法,非常值得嘗試。

一家叫做Prowler 的創業公司最近就在針對平均場博弈論(MFG)在大型多智慧體(DRL)環境中的表現開展研究工作。

二、隨機博弈(Stochastic games)

隨機博弈可追溯到 20 世紀 50 年代,它由諾貝爾經濟學獎獲得者 Lloyd Shapley 提出。

理論上隨機博弈的規則是,讓有限多個博弈者在有限個狀態空間中進行博弈,每個博弈者在每個狀態空間都從有限個行為中選出一個行為,這些行為的組合結果會決定博弈者所獲得的獎勵,並得出下一個狀態空間的概率分佈。

隨機博弈的經典案例是哲學家的晚餐問題:n+1 位哲學家(n 大於等於 1)圍坐在一個圓桌周圍,圓桌中間放了一碗米飯。每兩位鄰座的哲學家之間會放一支筷子以供這兩位取用。因為桌子是圓形的,筷子的數量與哲學家的數量一樣多。為了從碗中取到東西吃,哲學家需要同時從兩邊各取一支筷子組成一雙,因此,在一位哲學家吃東西時,他的兩位鄰座就無法同時進食。哲學家的生活簡單到只需要吃和思考,而為了存活下來,哲學家需要不斷地思考和吃東西。這場博弈的任務就是設計出一個可以讓所有的哲學家都活下來的制度。

這三個博弈論新趨勢,正深刻影響深度強化學習

DRL 已經開始應用隨機博弈理論解決多玩家遊戲問題。在許多多玩家遊戲中,AI 智慧體戰隊需要評估如何通過與其他智慧體協作和競爭以最大化正向結果。

這一問題一般被稱作探索-利用困境。在 DRL 智慧體中構建隨機博弈動態機制,可以有效地平衡 DRL 智慧體在探索能力和利用能力方面的發展。DeepMind 在訓練 AI 掌握 Quake III 遊戲的工作中,就融合了一些隨機博弈論中的概念。

三、進化博弈(Evolutionary Games)

進化博弈理論(EGT)是從達爾文進化論中得到的啟發。

EGT 的起源可以追溯到 1973 年,當時 John Maynard Smith 和 George R.Price兩人採用「策略」分析將演化競爭形式化,並建立數學標準,從而來預測不同競爭策略所產生的結果。

從概念上來說,EGT 是博弈論在進化場景中的應用。在這種博弈中,一群智慧體通過重複選擇的進化過程,與多樣化的策略進行持續互動,從而建立出一個穩定的解決方案。

它背後的思路是,許多行為都涉及到群體中多個智慧體間的互動,而其中某一個智慧體是否獲得成功,取決於它採取的策略與其他智慧體的策略如何互動。

經典博弈論將關注點放在靜態策略上,即參與者採取的策略不會隨著時間改變,而進化博弈與經典博弈論不同,它關注策略如何隨著時間演化,以及哪個動態策略是進化程式中最成功的那一個。

EGT 的經典案例是鷹鴿博弈(Howk Dove Game),它模擬了鷹與鴿之間對可共享資源的競爭。博弈中的每個競爭者都遵循以下兩種策略之中的一種:

  • 鷹:本能的強勢,充滿侵略性,除非身負重傷,否則絕不退卻。

  • 鴿:面對強勢進攻會立即逃跑。

如果假設:

1)兩個同樣強勢進攻的鷹進行搏鬥,兩者之間必然會發生衝突,且兩者都很有可能受傷;

2)衝突的代價是每人都受到一定程度的損傷,用常量 C 表示這個損失;

3)如果鷹與鴿相遇,鴿會立刻逃跑,而鷹則會佔有資源;

4)兩隻鴿相遇,則他們將公平地分享資源。鷹鴿博弈的對應收益可以用以下矩陣總結:

這三個博弈論新趨勢,正深刻影響深度強化學習

EGT 看上去似乎是特地為 DRL 環境而設計的。

在多智慧體的 DRL 環境中,智慧體在彼此互動的過程中會週期性地調整自己的策略。而 EGT 正是一種可以高效模擬這些互動的方法。最近,OpenAI 就展示了經過這種動態訓練的智慧體在玩捉迷藏遊戲時的表現(https://openai.com/blog/emergent-tool-use/)。

via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1

- END -

如果看到這裡,說明你喜歡這篇文章,請轉發、點贊掃描下方二維碼或者微信搜尋「perfect_iscas」,新增好友後即可獲得10套程式設計師全棧課程+1000套PPT和簡歷模板向我私聊「進群」二字即可進入高質量交流群。

掃描二維碼進群↓

這三個博弈論新趨勢,正深刻影響深度強化學習

這三個博弈論新趨勢,正深刻影響深度強化學習

這三個博弈論新趨勢,正深刻影響深度強化學習

在看 這三個博弈論新趨勢,正深刻影響深度強化學習

相關文章