運籌優化（十八）--對策論基礎及其最優化求解

Eason.wxd發表於2019-01-26

原文網址 : https://blog.csdn.net/app_12062011/article/details/86656605

對策也叫博弈 , 是自古以來的政治家和軍事家都很注意研究的問題。作為一門正式學科,是在20世紀40年代形成並發展起來的。直到1944年馮·諾依曼(von Neumann) 與摩根斯特恩(O .Morgenstern)的《博弈論與經濟行為》一書出版,標誌著現代系統博弈理論的初步形成。書中提出的標準型、擴充套件型和合作型博弈模型解的概念和分析方法 , 奠定了這門學科的理論基礎 , 成為使用嚴謹的數學模型研究衝突對抗條件下最優決策問題的理論。然而 , 諾依曼的博弈論的侷限性也日益暴露出來。由於它過於抽象 , 使應用範圍受到很大限制,所以影響力很有限。20世紀50年代,納什( Nash)建立了非合作博弈的“納什均衡”理論, 標誌著博弈的新時代開始 , 是納什在經濟博弈論領域劃時代的貢獻 , 是繼馮·諾依曼之後最偉大的博弈論大師之一。1994年納什獲得了諾貝爾經濟學獎。他提出的著名的納什均衡概念在非合作博弈理論中起著核心作用。由於納什均衡的提出和不斷完善 , 為博弈論廣泛應用於經濟學、管理學、社會學、政治學、軍事科學等領域奠定了堅實的理論基礎。

對策論基礎

對策論亦稱競賽論或博弈論, 是研究具有鬥爭或競爭性質現象的數學理論和方法。一般認為 , 它是現代數學的一個新分支 , 是運籌學的一個重要學科。對策論發展的歷史並不長, 但由於它研究的問題與政治、經濟、軍事活動乃至一般的日常生活等有著密切聯絡,並且處理問題的方法具有明顯特色 , 所以日益引起廣泛注意。

在日常生活中, 經常會看到一些相互之間具有鬥爭或競爭性質的行為 , 如下棋、打牌、體育比賽等。還比如戰爭活動中的雙方 , 都力圖選取對自己最有利的策略, 千方百計去戰勝對手。在政治方面 , 國際間的談判 , 各種政治力量之間的鬥爭 , 各國際集團之間的鬥爭等無一不具有鬥爭的性質。在經濟活動中, 各國之間、各公司企業之間的經濟談判 , 企業之間為爭奪市場而進行的競爭等 , 舉不勝舉。

具有競爭或對抗性質的行為稱為對策行為。在這類行為中 , 參加鬥爭或競爭的各方各自具有不同的目標和利益。為了達到各自的目標和利益 , 各方必須考慮對手的各種可能的行動方案 , 併力圖選取對自己最有利或最合理的方案。對策論就是研究對策行為中鬥爭各方是否存在著最合理行動方案 , 以及如何找到最合理行動方案的數學理論和方法。

以下稱具有對策行為的模型為對策模型或對策。對策模型的種類可以千差萬別 , 但本質上都必須包括以下三個基本要素。

1. 局中人

在一個對策行為(或一局對策)中,有權決定自己行動方案的對策參加者, 稱為局中人。通常用 I 表示局中人的集合。如果有n個局中人, 則 I = {1, 2, ⋯, n}。一般要求一個對策中至少要有兩個局中人。對策中關於局中人的概念具有廣義性，也就是不一定具體到人，也可以是組織，團地。需要強調的一點是 , 在對策中總是假定每一個局中人都是“ 理智的”決策者或競爭者 , 即對任一局中人來講 , 不存在利用其他局中人決策的失誤來擴大自身利益的可能性。

2. 策略集

一局對策中, 可供局中人選擇的一個實際可行的完整的行動方案稱為一個策略。參加對策的每一局中人i,i∈I,都有自己的策略集 Si。一般,每一局中人的策略集中至少應包括兩個策略。

3. 贏得函式(支付函式)

在一局對策中,各局中人選定的策略形成的策略組稱為一個局勢, 即若Si是第i個局中人的一個策略,則 n個局中人的策略組：s=(s1 ,s2 ,⋯,sn)就是一個局勢。全體局勢的集合S可用各局中人策略集的笛卡兒積表示 , 即S= S1×S2×⋯×Sn，當一個局勢出現後,對策的結果也就確定了。也就是說, 對任一局勢 s∈ S, 局中人i可以得到一個贏得值 Hi (s)。顯然, Hi (s)是局勢 s的函式,稱為第 i個局中人的贏得函式。

在齊王與田忌賽馬的例子中,局中人集合為 I={1,2},齊王和田忌的策略集可分別用 S1 ={a1 ,a2 , a3 , a4 ,a5 ,a6 }和 S2 ={β1 ,β2 ,β3 ,β4 ,β5 ,β6 }表示。這樣,齊王的任一策略 ai 和田忌的任一策略βj 就形成了一個局勢sij。如果a1=(上,中,下),β1 =(上,中,下),則在局勢 s11下齊王的贏得值為H1(s11) = 3 , 田忌的贏得值為H2(s11)=- 3, 如此等等。以上討論了局中人、策略集和贏得函式這三個概念。當這三個基本要素確定後 , 一個對策模型也就給定了。

對策問題舉例及對策的分類

對策論在經濟管理的眾多領域中有著十分廣泛的應用 , 下面列舉幾個可以用對策論思想和模型進行分析的例子。

費用分攤問題：假設沿某一河流有相鄰的 3 個城市 A、B、C,各城市可單獨建立水廠, 也可合作興建一個大水廠。經估算 , 合建一個大水廠 , 加上敷設管道的費用 , 要比單獨建3個小水廠的總費用少。但合建大廠的方案能否實施, 要看總的建設費用分攤得是否合理。如果某個城市分攤到的費用比它單獨建設水廠的費用還多的話 , 它顯然不會接受合作的方案。問題是應如何合理地分攤費用, 使合作興建大水廠的方案得以實現?

拍賣問題：最常見的一種拍賣形式是先由拍賣商把拍賣品描述一番,然後提出第一個報價。接下來由買者報價, 每一次報價都要比前一次高 , 最後誰出的價最高拍賣品即歸誰所有。假設有n個買主給出的報價分別為p1 ,⋯, pn ,且不妨設 pn > pn - 1 > ⋯ >p1 ,則買主 n 只要報價略高於 pn - 1 , 就能買到拍賣品, 即拍賣品實際上是在次高價格上賣出的。現在的問題是 , 各買主之間可能知道他人的估價 , 也可能不知道他人的估價 , 每人應如何報價對自己能以較低的價格得到拍賣品最為有利 ? 最後的結果又會怎樣 ?

囚犯難題：設有兩個嫌疑犯因涉嫌作案被警官拘留,警官分別對兩人進行審訊。根據法律,如果兩個人都承認此案是他們乾的, 則每人各判刑7年; 如果兩人都不承認 , 則由於證據不足 , 兩人各判刑1年 ; 如果只有一人承認並揭發對方, 則承認者予以寬大釋放 , 而不承認者將判刑9年。因此, 對兩個囚犯來說 , 面臨著一個在“承認”和“不承認” 這兩個策略間進行選擇的難題。

上面幾個例子都可看成是一個對策問題 , 所不同的是有些是二人對策 , 有些是多人對策;有些是有限對策, 有些是無限對策;有些是零和對策, 有些是非零和對策; 有些是合作對策, 有些是非合作對策等等。為了便於對不同的對策問題進行研究, 可以根據不同方式進行分類 , 通常的分類方式有 :

(1) 根據局中人的個數,分為二人對策和多人對策;
(2) 根據各局中人的贏得函式的代數和是否為零,分為零和對策與非零和對策;
(3) 根據各局中人間是否允許合作,分為合作對策和非合作對策;
(4) 根據局中人的策略集中的策略個數,分為有限對策和無限對策。
此外 , 還有許多其他的分類方式。例如根據策略的選擇是否與時間有關, 可分為靜態對策和動態對策 ; 根據對策模型的數學特徵 , 可分為矩陣對策、連續對策、微分對策、陣地對策、凸對策、隨機對策等。

在眾多對策模型中,佔有重要地位的是二人有限零和對策(finite two-person zero- sum game) , 又稱為矩陣對策。這類對策是到目前為止在理論研究和求解方法方面都比較完善的一個對策分支。矩陣對策可以說是一類最簡單的對策模型 , 其研究思想和方法十分具有代表性 , 體現了對策論的一般思想和方法 , 且矩陣對策的基本結果也是研究其他對策模型的基礎。

矩陣對策的基本定理

矩陣對策的數學模型

二人有限零和對策就是矩陣對策 , 是指只有兩個參加對策的局中人 , 每個局中人都只有有限個策略可供選擇。在任一局勢下, 兩個局中人的贏得之和總是等於零 , 即雙方的利益是激烈對抗的。“齊王賽馬”就是一個矩陣對策的例子 , 齊王和田忌各有6個策略, 一局對策結束後 , 齊王的所得必為田忌的所失 , 反之亦然。

在矩陣對策中,一般用I、II分別表示兩個局中人,並設局中人I有 m個純策略α1 ,α2 , ⋯,αm ,局中人II有 n 個純策略β1 ,β2 , ⋯,βn , 則局中人I、 II的策略集分別為：S1 ={α1 ,α2 ,⋯,αm}，S2 ={β1,β2,⋯,βn}，當局中人I選定純策略αi 和局中人II選定純策略βj 後,就形成了一個純局勢(αi ,βj )。可見這樣的純局勢共有m×n個。對任一純局勢(αi,βj),記局中人I的贏得值為aij，並稱：

$\begin{bmatrix} a_{11}\, a_{11}...\,a_{1n}\\ a_{21}\, a_{22}...\,a_{2n}\\ ...\, ...\...\\ a_{m1}\, a_{m2}...\,a_{mn}\\ \end{bmatrix}$

為局中人I的贏得矩陣(或為局中人II的支付矩陣)。由於假定對策為零和的,故局中人II的贏得矩陣就是 - A。

當局中人I、II和策略集 S1 、S2 及局中人I的贏得矩陣 A 確定後, 一個矩陣對策也就給定。通常 , 將一個矩陣對策記成G={I,II;S1,S2;A}或 G={S1,S2;A}

若 $\underset{i}{max}\, \underset{j}{min} a_{ij} =\underset{j}{min}\, \underset{i}{max}\, a_{ij} = a_{i^{*}j^{*}}$ 等式成立 , 記 VG = ai*j*。則稱VG為對策G的值, 稱使該式成立的純局勢(αi*,βj*)為G在純策略下的解(或平衡局勢),αi*與βj*分別稱為局中人I,II的最優純策略。

矩陣對策 G = { S1 , S2 ; A}在純策略意義下有解的充分必要條件是 : 存在純局勢(αi* ,βj* )使得對一切i=1,⋯,m,j=1,⋯,n,均有：

aij* ≤ai* j* ≤ai* j或者ai * j * 是矩陣 A 的一個鞍點

矩陣對策的值是唯一的。即當局中人I採用構成解的最優純策略時 , 能保證他的贏得VG不依賴於對方的純策略。

矩陣對策的混合策略

對矩陣對策 G= { S1 , S2 ; A}來說,局中人I有把握的至少贏得是 $v1 = \underset{i}{max}\, \underset{j}{min} a_{ij}$ ,局中人II有把握的至多損失是 $v2 = \underset{j}{min}\, \underset{i}{max}\, a_{ij}$

一般，局中人I贏得值不會多於局中人II損失值，即總有v1 <= v2.

設有矩陣對策G={S1,S2;A},其中S1 ={α1,α2,⋯,αm},S2 ={β1,β2,⋯, βn},A=(aij )m×n記

$S_{1}^{*} = \left \{ x \in E^{m} / x_{i} \geqslant 0,i = 1,...,m,\sum_{i= 1}^{m}x_{i} = 1\right \} \ S_{2}^{*} = \left \{ y \in E^{n} / y_{j} \geqslant 0,j = 1,...,n,\sum_{j= 1}^{n}y_{j} = 1\right \}$

則s1,s2分別稱局中人I和II的混合策略集， $x \in S_{1}^{*}$ 和 $y \in S_{2}^{*}$ 分別稱局中人I和II的混合策略，

局中人I的贏得函式記成E(x,y)=xT Ay=∑∑aijxiyj這樣得到的一個新的對策記成 G* = { S1* , S2* , E}, 稱 G* 為對策 G 的混合擴充。

一個混合策略x=(x1,⋯,xm)T 可設想成當兩個局中人多次重複進行對策G時,局中人I分別採取純策略 α1 , ⋯,αm 的頻率。若只進行一次對策, 混合策略 x = ( x1 , ⋯, xm )T 可設想成局中人I對各純策略的偏愛程度。

設G* ={S1* ,S2* ;E}是矩陣對策G={S1 ,S2 ;A}的混合擴充,如果

$\underset{x\in S_{1}^{*}}{max}\, \underset{y\in S_{2}^{*}}{min} E(x,y)=\underset{y\in S_{2}^{*}}{min}\, \underset{x\in S_{1}^{*}}{max}\, E(x,y)$ 記其值為VG。則稱VG 為對策G* 的值,稱使上式成立的混合局勢(x* ,y* )為G在混合策略意義下的解(或簡稱解) , x* 和 y* 分別稱為局中人I和II的最優混合策略(或簡稱最優策略)。當G 在純策略意義下解不存在時, 自動認為討論的是在混合策略意義下的解,相應的局中人I的贏得函式為 E(x,y)。

矩陣對策G={S1 ,S2 ;A}在混合策略意義下有解的充要條件是:存在 x* ∈ S1* , y* ∈S2* ,使(x* , y* )為函式 E( x, y)的一個鞍點,即對一切 x∈S1* , y∈S2* ,有E(x,y* )≤E(x* ,y* )≤E(x* ,y)

矩陣對策的基本定理

對任一矩陣對策G={S1,S2;A},一定存在混合策略意義下的解。

設(x* ,y* )是矩陣對策G的解,v=VG,則：

(1) 若 xi* >0,則∑aij yj* = v。

(2)若yj* >0,則∑aij xi* = v。

(3) 若∑aij yj* < v,則 xi* = 0

(4) 若∑aij xi* > v ,則則 yj* = 0

設有兩個矩陣對策：G1 ={S1,S2;A1}，G2 ={S1,S2;A2}，其中A1 =(aij),A2 =(aij +L),L為任一常數,則有：

(1) VG = VG + L

( 2 ) T ( G1 ) = T ( G2 )

設有兩個矩陣對策G1 ={S1,S2;A}，G2 ={S1 ,S2 ;αA}其中α> 0 為任一常數。則(1) VG =αVG，( 2 ) T ( G1 ) = T ( G2 )

設G={S1,S2;A}為—矩陣對策,且A=-AT 為斜對稱矩陣(亦稱這種對策為對稱對策)。則

(1) VG =0
(2) T1 (G) = T2 (G),其中 T1 (G)和 T2 (G)分別為局中人I和II的最優策略集。

設有矩陣對策G={S1,S2;A},其中S1 ={α1,⋯,αm},S2 ={β1,⋯,βn},

A=(aij),如果對一切j=1,⋯,n都有ai0j≥ak0j,即矩陣A的第i0 行元素均不小於第k0 行的對應元素,則稱局中人I的純策略αi0 優超於αk0 ;同樣,若對一切 i= 1,⋯, m,都有 aij0 ≤ail0 即矩陣 A的第l0 列元素均不小於第 j0 列的對應元素,則稱局中人II的純策略

βj 0 優超於 βl 0 。

設G={S1,S2;A}為矩陣對策,其中S1 ={α1,⋯,αm},S2 ={β1,⋯,βn},

A=(aij )如果純策略α1 被其餘純策略α2 ,⋯,αm 中之一所優超,由G可得到一個新的矩陣對策 G′= { S′1 , S2 ; A′}其中S′1 ={α2 ,⋯,αm}，A′= ( ai j ′) ( m - 1 ) × n，aij =aij i=2,⋯,m j=1,⋯,n。於是有：

( 1 ) V G′ = V G ;

(2) G′中局中人II的最優策略就是其在 G中的最優策略;

(3)若(x2* ,⋯,xm* )T 是G′中局中人I的最優策略,則x* =(0,x2* ,⋯,xm* )T 便是其在 G中的最優策略。

上面定理實際給出了一個化簡贏得矩陣 A的原則,稱之為優超原則。根據這個原則,當局中人I的某純策略 ai 被其他純策略或純策略的凸線性組合所優超時 , 可在矩陣 A 中劃去第 i 行而得到一個與原對策 G 等價但贏得矩陣階數較小的對策 G′, 而 G′的求解往往比 G 的求解容易些 , 通過求解 G′而得到 G 的解。類似地 , 對局中人II來說 , 可以在贏得矩陣 A 中劃去被其他列或其他列的凸線性組合所優超的那些列。

矩陣對策的解法

我們根據上面的定理，可以得到一些矩陣對策的解法，如2x2矩陣對策的公式法求解，圖解法，求線性方程組解解法等，也可以利用線性規劃求解。線性規劃方法是具有一般性的 , 另外還有兩種具有一般性的解法 : 求全部解的矩陣法和至少保證求出一個解的微分方程法。

其他型別對策簡介

其他型別的對策有：

二人無限零和對策

矩陣對策最簡單的推廣就是局中人的策略集從有限集變為無限集, 例如是 [ 0 , 1 ] 區間。

多人非合作對策

指局中人之間互不合作 , 對策略的選擇不允許事先有任何交換資訊的行為 , 不允許訂立任何約定 , 矩陣對策就是一種非合作對策

合作對策

合作對策的基本特徵是參加對策的局中人可以進行充分的合作, 即可以事先商定好, 把各自的策略協調起來 ; 可以在對策後對所得到的支付進行重新分配。合作的形式是所有局中人可以形成若干聯盟 , 每個局中人僅參加一個聯盟 , 聯盟的所得要在聯盟的所有成員中進行重新分配。一般說來 , 合作可以提高聯盟的所得 , 因而也可以提高每個聯盟成員的所得。但聯盟能否形成以及形成哪種聯盟 , 或者說一個局中人是否參加聯盟以及參加哪個聯盟, 不僅取決於對策的規則 , 更取決於聯盟獲得的所得如何在成員間進行合理的重新分配。如果分配方案不合理 , 就可能破壞聯盟的形成, 以至於不能形成有效的聯盟。因此 , 在合作對策中, 每個局中人如何選擇自己的策略已經不是要研究的主要問題了 , 應當強調的是如何形成聯盟,以及聯盟的所得如何被合理分配(即如何維持聯盟)。

其實，關於對策論或者叫博弈論，有很多著名的故事和例項，如囚徒問題，納什均衡等等，這裡只是簡單介紹。

運籌優化（十九）--決策論基礎及其最優化求解
2019-01-27
優化
運籌優化（十七）--儲存論基礎及其最優化求解
2019-01-24
優化
運籌優化（十六）--排隊論基礎及其最優化求解
2019-01-23
優化
運籌優化（十）--整數規劃求解
2019-01-17
優化
運籌優化（一）--運籌學概述
2019-01-07
優化
運籌優化（八）--圖與網路優化
2019-01-16
優化
運籌優化（十三）--大規模優化方法
2019-01-19
優化
運籌優化（十四）--離散優化的啟發式演算法
2019-01-19
優化演算法
運籌優化（七）--動態規劃解析
2019-01-15
優化動態規劃
運籌優化（九）--整數規劃模型
2019-01-17
優化模型
UA SIE545 優化理論基礎4 對偶理論簡介4 求解對偶問題的割平面演算法
2020-12-02
優化演算法
前端效能優化基礎
2019-01-05
前端優化
快速排序及其優化
2019-05-05
排序優化
運籌優化（十五）--應用模型之分配問題
2019-01-21
優化模型
運籌優化（五）--線性規劃之內點法
2019-01-12
優化
運籌優化（六）--目標規劃定義及解法
2019-01-14
優化
運籌優化（十一）--無約束非線性規劃
2019-01-18
優化
Oracle效能優化方法論的發展之二：基於OWI的效能優化方法論
2018-10-12
Oracle優化
04 最優化方法
2019-01-02
優化
Angularjs的$apply及其優化使用
2019-03-01
AngularJSAPP優化
迴流、重繪及其優化
2019-02-16
優化
MySQL表連線及其優化
2021-02-20
MySql優化
運籌優化（二）--線性規劃概念及應用模型
2019-01-08
優化模型
運籌優化（十二）--帶約束非線性規劃（NLP）
2019-01-18
優化
數值最優化—優化問題的解(二)
2020-09-24
優化
運籌優化（四）--線性規劃之對偶問題和靈敏度分析
2019-01-12
優化
Python線性優化基礎講解～
2019-04-01
Python優化
Linux命令補充及基礎優化。
2018-07-20
Linux優化
web效能優化（理論）
2018-10-30
Web優化
SQL優化的方法論
2020-04-04
SQL優化
Oracle效能優化方法論的發展之四：基於資源瓶頸分析的優化方法論
2018-10-12
Oracle優化
Oracle效能優化方法論的發展之三：基於響應時間分析的效能優化方法論
2018-10-12
Oracle優化
Javascript中的尾遞迴及其優化
2019-03-02
JavaScript遞迴優化
企業數字化悖論與對策
2023-02-08
PHP效能優化 -理論篇
2019-02-12
PHP優化
前端效能優化（JS/CSS優化，SEO優化）
2018-03-04
前端優化JSCSS
基礎排序演算法詳解與優化
2018-09-30
排序演算法優化
2020重新出發，MySql基礎，效能優化
2020-09-02
MySql優化