博弈論——顫抖手納什均衡(二十一)

郝hai發表於2024-09-29

在博弈論中,納什均衡(Nash Equilibrium)是博弈各方的一種策略組合,在這個組合下,每個參與者的策略都是對其他參與者策略的最優反應。換句話說,在納什均衡下,任何一方都沒有動機單方面改變自己的策略,因為那樣做不會帶來更高的收益。然而,納什均衡的穩定性問題引發了大量的研究。特別是當我們考慮到現實中的人們有時會“犯錯”或者隨機地偏離最優策略時,傳統的納什均衡可能顯得不夠穩定。為了解決這個問題,顫抖手納什均衡(Trembling Hand Perfect Nash Equilibrium)應運而生,它透過允許博弈參與者有一定機率選擇非最優策略,從而增強了納什均衡的穩定性。

博弈論——顫抖手納什均衡(二十一)

一、顫抖手博弈納什均衡

“顫抖手精煉均衡”概念是澤爾騰提出的對納什均衡的一個改進。在任何一個博弈中,每個局中人都有一個犯錯誤的可能性(類似一個人用手抓東西時,手一顫抖,他就抓不住他想抓的東西)。一個策略對是一個顫抖手精煉均衡時,它必須具有如下性質:各局中人\(i\)要採用的策略,不僅在其他局中人不犯錯誤時是最優的;而且在其他局中人偶爾犯錯誤(機率很小,但大於0)時還是最優的,可知顫抖手精煉均衡是一種較穩定的均衡。為了解決納什均衡的穩定性問題,諾貝爾經濟學獎得主 Reinhard Selten 提出了顫抖手納什均衡(Trembling Hand Perfect Nash Equilibrium)這一概念。這個均衡考慮了現實中決策者可能會犯錯的情況,即參與者以極小的機率選擇非最優策略。透過允許每個參與者的手“顫抖”一下,理論能夠更穩健地描述現實決策過程中的均衡。

1.2 顫抖手均衡的定義

顫抖手納什均衡是納什均衡的一種加強形式,它要求每個參與者的策略對手的顫抖(即他們選擇非最優策略的極小機率)具有魯棒性。具體來說,在顫抖手均衡中,參與者即使面對對手可能顫抖的情況,也必須選擇能最大化其期望收益的策略。
設想一個博弈中每個參與者都可能以極小的機率“犯錯”,即以某個\(\epsilon> 0\) 的機率偏離最優策略。這時,參與者不能僅僅選擇那些在某些情況下有更高回報的策略,而是必須選擇在所有可能偏離情形下都能保證最優收益的策略。

1.2 顫抖手均衡的形式化

假設一個博弈中有\(n\)個參與者,每個參與者\(i\)選擇策略\(s_i\)的機率為 \(p_i(s_i)\),並且存在一個很小的機率\(\epsilon_i\)表示參與者\(i\)選擇“非最優策略”的機率。顫抖手納什均衡要求在每個參與者的策略中,任意小的\(\epsilon_i\) 偏差下,博弈的均衡解仍然保持穩定。也就是說,當\(\epsilon_i \to 0\)時,參與者的策略選擇應該收斂於一個純策略納什均衡。

例1:

博弈方1\博弈方2 L R
U 10,0 6,2
D 10,1 2,0

因為從這個策略組合出發,不管博弈方2是否有偏離R的可能,博弈方1都沒有必要偏離U;對博弈方2來說,雖然博弈方1從U偏離為D對他的利益有不利的影響,但只要博弈方1偏離的可能性不超過2/3,那麼自己改變策略並不合理。在這個博弈中(D,L)和(U,R)都是納什均衡,其中(D,L)對博弈方1較為有利,(U,R)對博弈方2較為有利。
在不考慮選擇和行為偏差的情況下,這兩種納什均衡都是穩定的。如果考慮到博弈方的選擇和行為可能出現的偏差,具有穩定性的機率較大的均衡來說,我們稱之為顫抖手均衡。
假設博弈方的策略能選擇顫抖手均衡。那麼博弈方1選擇U,進而博弈方2選擇R,這是選擇顫抖手均衡的結果。

我們把上面這個博弈中博弈方1的得益情況做少量改變,顫抖手均衡的情況就會發生變化。我們看下圖的得益矩陣情況:

博弈方1 \ 博弈方2 L R
U 9,0 6,2
D 10,1 2,0

我們發現前一個博弈中的非顫抖均衡(D,L),變成了後一個博弈中的顫抖手均衡,因為現在即使博弈方1仍然會考慮博弈方2偏離L而錯誤選擇R的可能性,但只要這種可能性確實很小(即不超過1/3),那麼博弈方1堅持選擇D而不選U是最佳策略,因此該博弈中有兩個顫抖手均衡。假設博弈方2偏離L的機率為a,那麼不偏離的機率為1-a,則(1-a) = 2a,得到a = 1/3**。

透過這兩個例子的對比可以看出,一個策略組合要是一個顫抖手均衡,首先必須是一個納什均衡,其次是不能包含任何“弱劣策略”,也就是偏離對偏離者沒有損失的策略。包含“弱劣策略”的納什均衡不可能是顫抖手均衡,因為它們經不起任何非完全理性的“擾動”,缺乏在有限理性條件下的穩定性。

二、顫抖手納什均衡

顫抖手納什均衡(Trembling Hand Nash Equilibrium)是對傳統納什均衡的擴充套件,它引入了博弈者偶爾可能犯錯誤的情況。顫抖手納什均衡不僅要求每個參與者的策略在面對對手的最優策略時是最優的,還要求即使對手偶爾出錯,這種均衡策略也要具備穩定性。
在經典納什均衡中,博弈者會假設其他博弈者完全理性,並且所有博弈者都會嚴格按照最優策略進行選擇。然而,在實際決策過程中,博弈者可能會由於各種原因偶爾出錯,即他們可能會選擇並非最優的策略。為了應對這種可能性,顫抖手納什均衡提出了一種更穩健的策略選擇方式,要求參與者在對手可能偶爾選擇“錯誤”策略時,也能採取相對最優的策略回應。簡言之,顫抖手納什均衡強調了穩健性。它不僅要求每個博弈者的策略在面對理性對手時是最優的,還要在對手偶爾“顫抖”選擇非最優策略時,這個策略仍然能保證參與者的最大收益。

例2:考察下面例子中所有納什均衡

Player1\Player2 $$L(q_1)$$ $$C(q_2)$$ $$R (1-q_1-q_2)$$
\(T (p_1)\) 0,0 0,0 0,0
\(M (p_2)\) 0,0 1,1 1,1
\(B\) 0,0 0,2 2,2

畫線法找到所有PNE: (T, L), (M, C), (B, R)。無差異方法找到MNE:

\[v_1(M) = v_1(B) \Rightarrow q_2 = 2(1 - q_1 - q_2) \]

結合\(q_1 + q_2 + q_3/2 = 1\) 得到\(q_1 = 0, q_2 = 2/3, q_3 = 1/3\),此時 player2 也為 C, B 間的混合策略。

則為了保證\(v_2(C) = v_2(R)\), 令:

\[p_2 + p_3 = 2p_3 \Rightarrow p_2 = 0, p_3 = 1 \]

檢查: 由於\(BR_2(B) = 2/3, BR_1(q_2 = 2/3, q_3 = 1/3)\)\(\{p_2 + p_3 = 1\}\),則 \((B, 2/3C + 1/3R)\)為混合策略納什均衡。

注意到,三個純策略納什均衡 (T, L), (M, C) 線下兩個均衡更為穩健:

考慮 player1 的選擇\(T, L\)\(T, L\) 此時對手偏離 L 而選擇 R 仍能保持同樣的收益(但不能提高,否則違反納什均衡)。則這種偏離導致\(T\) 不再是 player1 的最優反應;
考慮 player1 的選擇 \(B, R\) 時的\(B\),此時對手偏離 R 而選擇 C 仍能保持同樣的收益(但不能提高,否則違反納什均衡)。

則這種偏離致使 B 不再是 player1 的最優反應。即對於 player1,對比每行收益,排除均衡所在的對手策略(分別是 L, R 行與 B 行都在對手剩餘策略下“弱勢”於其他己方策略(用堅線標出),可以理解為對手故意讓人後悔。

例3: 考察下面投票博弈中的所有納什均衡
奇數個評委票,所有 N 候選人中選出一個。評委有兩個選擇:保留現任 (Q) 和更換現任 (A),保留和更換與否取決於多數人的決定。所有人都認為更換更好。

該博弈中存在多個納什均衡。其中兩個極端的均衡是:所有人選擇 Q 和所有人選擇 A。考察 3 個評委的情況:

Player3 選擇 Q Q A
Q 0,0; 0 0,0; 0
A 0,0; 0 1,1; 1

注意到 3 個人時僅有 1 人選擇 Q 和所有人選擇 A 兩種納什均衡。而所有人選擇 A 之所以成為納什均衡,是因為單個評委的選擇無法影響整體投票結果(沒有人是 pivotal),比如在評委1的視角,任何策略只會導致 (A, Q; Q)。

但是顯然,一旦有人偏離\(A, Q; Q\),比如評委2偏離導致\(A, Q; Q\) 則評委1b 應選擇改變。顯然,這也顯現出去除所在的對手策略\(A, Q; Q\) 後,弱勢於 3 導致的不穩定。

綜上,聰明的參與人應當不會選擇一個對手行為偏離的均衡中“弱勢”的策略,此外對手引入正解標準偏離的均衡納什均衡時,參與人原有均衡策略不再是最優反應。因此,我們需要從納什均衡中精煉出更穩健的方案: 鼓勵鬥爭精煉均衡。

綜上, 足夠聰明的參與人應當不會選擇一個在對手行為偏離納什均衡時"弱劣"的策略, 即當對手以正機率偏離納什均衡策略時, 參與人原納什均衡策略不再是最優反應. 因此, 我們需要從納什均衡中精煉(refine)出更穩健的子集: 顫抖手精煉均衡

三、案例

在演進博弈論中,顫抖手均衡尤其具有解釋力。演進博弈論研究的是博弈雙方透過一系列重複博弈形成的穩定策略,這種穩定性不一定來源於完全理性的策略計算,而可能是一種隨機形成的過程。在這一過程中,博弈者會基於對對方行為的觀察與猜測,逐步調整自己的策略,從而形成一種穩定的均衡。顫抖手均衡則解釋了即使在對手偶爾出錯的情況下,穩定的策略仍然能夠維持。要將一種均衡定義為顫抖手納什均衡,必須滿足以下兩個關鍵條件:

策略的最優性:即使考慮到對手有可能顫抖(選擇非最優策略),每個博弈者的策略仍然是最優的。換句話說,顫抖手納什均衡不僅考慮了傳統意義上的理性選擇,還加入了應對不確定性和微小錯誤的策略。
策略的魯棒性(穩健性):在對手可能犯錯的情境下,參與者的策略依然能為其帶來最大利益。這一特徵確保了顫抖手納什均衡相比於傳統納什均衡更具穩定性和魯棒性。

博弈論——顫抖手納什均衡(二十一)

一個博弈有可能存在很多個納什均衡,對納什均衡的精煉就是以不同的標準剔除在某一衡量標準下相對不合理或不穩定的納什均衡而篩選出最合理或穩定的納什均衡, 這個過程叫做納什均衡的精煉(refinement)。顫抖手均衡是納什均衡的一種精煉, 簡單地說, 在一個納什均衡狀態,如果其中一個參與者的手顫抖了一下(假設為小機率事件)選擇了次優的策略,那麼一個納什均衡是顫抖手均衡的要求就是參與者有動機重新回到原來的均衡,而不是這個偏離並趨向另一個納什均衡。 如上圖的例子, 圖1顯示這個博弈有兩個純策略納什均衡,(A, A) 和 (B,B), 收益分別是 (1,1) 和 (2,2) ;但顫抖手均衡只有一個,就是(A, A),收益為(1,1)。解釋如下:
假設雙方處於(A, A)這個納什均衡, 如果參與者 I 顫抖,選擇了B, 那麼博弈的結果是 (B, A),在 (B, A), 參與者 I 有動機改變現狀,因為選B的收益是0, 而選A的收益是1, 所以參與者 I 會重新選擇A, 使博弈回到(A, A)這個均衡,對參與者 II 來說,(B,A)和(B,B)的收益是一樣的,都是2,所以在(B,A)參與者II 沒有動機改變現狀。綜上, 在(A,A)這個均衡,顫抖後博弈會重新迴歸這個均衡。直觀地說(A,A)是抗震的,震完以後會歸位。(A,A)就是一個顫抖手均衡。
相反,(B,B)就不是一個顫抖手均衡。
假設雙方處於(B,B), 收益 (2,2),如果有參與者顫抖,比如參與者II 顫抖到A,博弈結果成為(B, A),收益變成 (0,2),在這個情況下,對於II 來說沒有動機改變,因為顫抖前後收益都為2, 但對於I 來說,就不一樣了,如果II 顫抖到A, I 的收益就從2變到0, 如以上所述,在(B,A)的情況下,I 有動機改變並選A。 所以,在(B,B)這個納什均衡點,顫抖後均衡會趨向 (A,A)這個點,所以(B,B)就是在顫抖情況下不穩定的, (B,B)就不是一個顫抖手均衡。
在只有兩個參與者的情況下,顫抖手均衡的一個充分必要條件是:是納什均衡並且沒有一個參與者的策略是弱劣策略(weakly dominated)。如圖的列子裡,B 對雙方來說都是弱劣策略,所以根據這個充要條件,(B,B)可以被簡單地剔除。

我們考慮一個具有兩個“委託人—代理人”對和兩種自然狀態的對稱支付模型。設代理人1的策略有:α1(積極工作)和α2(偷懶);代理人2的策略同樣有β1(積極工作)和β2(偷懶)。相應於兩個代理人的策略,在自然狀態s1和s2下,每個委託人的收益如下:

狀態s1(壞)與狀態s2(好)的支付矩陣

狀態s1(壞) β1 β2
α1 (c1, c2) (d1, a2)
α2 (a1, d2) (b1, b2)
狀態s2(好) β1 β2
α1 (d1, d2) (e1, b2)
α2 (b1, e2) (c1, c2)

其中,0<aj<bj<cj<dj<ej,j=1,2。這意味著當自然狀態“壞”時,每個代理人都必須採用“積極”的策略,才能使自己的委託人得到中等以上的收益(即不小於cj);而當自然狀態“好”時,兩代理人即使都選擇“偷懶”,也能使各自的委託人得到cj的收益。

設代理人j(j=1,2)在其委託人的利潤不小於cj單位時,獲得收益Uj;否則所得為-M。假設代理人j選擇“積極”策略時沒有額外收益,而選擇“偷懶”時可獲得li>0單位的額外收益。因此,代理人的收益可用如下二人非零和博弈標準形式表示:

代理人的收益博弈矩陣

自然狀態s1(壞) β1 β2
α1 (U1, U2) (U1-M, U2)
α2 (-M, U2) (-M, -M)
自然狀態s2(好) β1 β2
α1 (U1, U2) (U1, U2-M)
α2 (U1+l1, U2) (U1+l1, U2+l2)

在自然狀態s2中,代理人之間的博弈有2個納什均衡:(α1,β1)對應收益(U1, U2)和(α2,β2)對應收益(U1+l1, U2+l2);而在壞的狀態s1中,代理人間的博弈只有一個非合作均衡(α1,β1)對應收益(U1, U2)。

透過觀察上述博弈,我們發現:

  • 在自然狀態s2中,(α1,β1)更加有效率,使每個委託人的收益都較高;
  • 然而,兩個代理人卻更偏愛均衡(α2,β2),因為這個均衡使他們的效用從(U1, U2)升至(U1+l1, U2+l2)。

但是,如果這兩個納什均衡中,只有(α1,β1)是顫抖手精煉均衡,代理人可能不再偏愛均衡(α2,β2)。

總結

顫抖手納什均衡(Trembling Hand Perfect Nash Equilibrium)是博弈論中對傳統納什均衡的擴充套件和加強。傳統納什均衡假設所有參與者都理性地選擇最優策略,但在實際中,參與者可能會由於錯誤或其他不確定因素,偶然地選擇非最優策略。顫抖手均衡透過引入參與者可能出現的“顫抖”——即輕微的非理性行為或策略偏離,從而使均衡在面對這種偶然“錯誤”時仍然保持穩定。換句話說,這一均衡要求策略不僅在當前情境下最優,而且在對手可能犯錯的情況下也依然是最優的。
相比普通的納什均衡,顫抖手納什均衡更加現實,因為它考慮了策略選擇中的微小偏差,並確保均衡解在各種細微擾動下仍然成立。特別是在存在多重均衡的博弈中,顫抖手均衡可以幫助篩選出更穩健的解,從而避免因策略偏差導致的不穩定現象。它不僅廣泛應用於經濟學中的市場進入博弈、拍賣博弈等,還在進化博弈論中用於解釋物種如何形成穩定的行為策略。因此,顫抖手納什均衡為博弈論提供了一個更強的穩定性標準,它在面對具有多重均衡和不完全資訊的博弈時,提供了更為精確的分析工具。

參考文獻

1.博弈論新講(5) 顫抖手精煉均衡
2.張維迎《博弈與社會》威脅與承諾(2)序貫理性

相關文章