認知網路知識點及例題總結

XDU_David發表於2020-12-31

前言

該部落格為認知網路課程知識點與例題的總結,其中不乏錯誤,還望大家指正。

文章的電子版(直接列印)下載連結見文末。

更新:20年最新試題題型有所變動,下載連結見文末。

知識點部分

第一章

1.1認知無線電

1.認知無線電的概念

認知無線電是指具有自主尋找和使用空閒頻譜資源能力的智慧無線電技術,具有偵測、適應、學習、機器推理、最優化、多工以及併發處理/應用的效能。

2.認知無線電提出的背景

隨著無線通訊技術的飛速發展,頻譜資源變得越來越緊張。為保護頻譜資源,頻率管理部門專門分配了特定的授權頻段以供特定通訊業務使用。與授權頻段相比,非授權頻段的頻譜資源要少很多,而相當數量的授權頻譜資源的利用率卻非常低。於是就出現了這樣的事實:某些部分的頻譜資源相對較少但其上承載的業務量很大,而另外一些已授權的頻譜資源利用率卻很低。因此,可以得出這樣的結論:基於目前的頻譜資源分配方法,有相當一部分頻譜資源的利用率是很低的。

為了解決頻譜資源匱乏的問題,基本思路就是儘量提高現有頻譜的利用率。為此,人們提出了認知無線電的概念。認知無線電的基本出發點就是:為了提高頻譜利用率,具有認知功能的無線通訊裝置可以按照某種“伺機”的方式工作在已授權的頻段內。當然,這一定要建立在已授權頻段沒用或只有很少的通訊業務在活動的情況下。這種在空域、時域和頻域中出現的可以被利用的頻譜資源被稱為“頻譜空洞”。認知無線電的核心思想就是使無線通訊裝置具有發現“頻譜空洞”併合理利用的能力。

當非授權通訊使用者通過“借用”的方式使用已授權的頻譜資源時,必須保證他的通訊不會影響到其他已授權使用者的通訊。

3.認知網路的概念

認知網路是具有認知過程、能感知當前網路條件、然後依據這些條件作出規劃、決策和採取動作的網路。

4.認知網路的特徵

它具有對網路環境的自適應能力,具有對以前決策的評判和未來決策判定的學習能力,決策要達到的都是端到端的目標,即網路目標。

5.認知環的組成

認知環由6部分組成:感知(Sense)、規劃(Plan)、決策(Decide)、行動(Act)、學習(Learn)、策略(Policy)。認知網路通過感知器感知周圍的環境。

第二章

2.1學習與推理的概念

1.機器學習的定義

對於某類任務T和效能引數P,計算機程式通過經驗E不斷改善完成任務T的效能引數P,則稱該演算法具有機器學習的能力。

2.機器學習分類

  • 監督學習:利用訓練樣本學習一個函式。每個訓練樣本為一對函式的輸入輸出值。當新的樣本(僅有輸入值)到來時,可以根據這個函式預測函式輸出值。
  • 非監督學習:與監督學習相比,訓練樣本僅有輸入值,沒有人為標註的輸出。常見的非監督學習演算法有聚類。
  • 增強學習:學習優化任務的動作序列。每個動作都會對環境有影響,學習演算法根據觀察到的周圍環境的反饋來做出判斷。

2.2決策樹學習

1.決策樹的定義

決策樹是一種機器學習的方法,一般都是自上而下的來生成的。每個決策或事件(即自然狀態)都可能引出兩個或多個事件,導致不同的結果,把這種決策分支畫成圖形很像—棵樹的枝幹,故稱決策樹。

決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,最後每個葉節點代表一種分類結果。

2.決策樹父節點定義依據

由增熵原理來決定哪個做父節點,哪個節點需要分裂。對一組資料而言,熵越小說明分類結果越好。
E n t r o p y = − ∑ i [ p ( x i ) × log ⁡ 2 ( p ( x i ) ) ] Entropy=-\sum_i[p(x_i)×\log_2(p(x_i))] Entropy=i[p(xi)×log2(p(xi))]
其中p(xi)為xi出現的概率

具體的節點劃分過程見例題

3.決策樹過擬合定義

在決策樹學習過程中,為了儘可能正確分類訓練樣本,有時會造成決策樹分支過多,這樣決策樹可能會過分逼近訓練樣本,若訓練樣本有誤差,會導致泛化誤差增加。

4.避免決策樹過擬合手段

  • 預剪枝:及早停止樹的生長。對每個節點是否繼續劃分進行評估,若當前節點的劃分不能提升決策樹的泛化效能,則停止劃分,並標記為葉結點。
  • 後剪枝:利用訓練集生成一棵完整的決策樹,然後自底向上對非葉子節點進行考察,若該節點不能提升決策樹的泛化效能,則將該子樹替換為葉結點。
  • 留出法:隨機抽取一部分資料用作“驗證集”以進行效能評估。

tips:剪枝的定義:避免過擬合的重要手段,通過去掉一些樹枝,降低過擬合的風險。

2.3貝葉斯推理

1.基礎知識

①一維高斯變數X~N(μ,σ2),則概率密度函式
f X ( x ) = 1 2 π σ 2 e − 1 2 σ 2 ( x − μ ) 2 f_X(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2} fX(x)=2πσ2 1e2σ21(xμ)2
②貝葉斯公式
P ( A ∣ B ) = P ( A B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)}=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(AB)=P(B)P(BA)P(A)
③平均錯誤概率
P e = P ( H 0 ) P ( H 1 ∣ H 0 ) + P ( H 1 ) P ( H 0 ∣ H 1 ) P_e=P(H_0)P(H_1|H_0)+P(H_1)P(H_0|H_1) Pe=P(H0)P(H1H0)+P(H1)P(H0H1)
2.代價因子

判決H0H1
H0C00C01
H1C10C11

Cij:在傳送Hj的情況下判為Hi所付的代價

3.總平均代價
C ‾ = ∑ j = 0 1 ∑ i = 0 1 C i j P ( H j ) P ( H i ∣ H j ) \overline{\text{C}}=\sum_{j=0}^{1}\sum_{i=0}^{1}C_{ij}P(H_j)P(H_i|H_j) C=j=01i=01CijP(Hj)P(HiHj)
貝葉斯準則,就是在假設Hj的先驗概率已知,各代價因子給定時,使平均代價最小的準則。

4.貝葉斯判決式

貝葉斯判決準則
P ( x ∣ H 0 ) P ( x ∣ H 1 ) > H 1 < H 0 P ( H 0 ) P ( H 1 ) ( C 10 − C 00 ) ( C 01 − C 11 ) \frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})} P(xH1)P(xH0)<H0>H1P(H1)P(H0)(C01C11)(C10C00)
上面這個不等式左邊是兩個轉移概率密度函式(又稱似然函式)之比,稱為似然比(likelihood ratio),用下面所示的公式表示:
Λ ( x ) = P ( x ∣ H 0 ) P ( x ∣ H 1 ) \Lambda(x)=\frac{P(x|H_0)}{P(x|H_1)} Λ(x)=P(xH1)P(xH0)
不等式右邊是由先驗概率和代價因子決定的常數,稱為似然比檢測門限,記為
λ 0 = P ( H 0 ) P ( H 1 ) ( C 10 − C 00 ) ( C 01 − C 11 ) \lambda_0=\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})} λ0=P(H1)P(H0)(C01C11)(C10C00)

於是由貝葉斯準則得到的似然比檢驗
Λ ( x ) > H 1 < H 0 λ 0 \Lambda(x)\frac{>H_1}{<H_0}\lambda_0 Λ(x)<H0>H1λ0
由其定義式可知,似然比檢驗需要對觀測量x進行處理,即計算似然比,然後跟某個似然比檢測門限比較,做出判斷。

門限和P(Hj)和Cij有關,為了在不同先驗概率和不同代價因子時,都能達到貝葉斯準則下的最小平均代價,就應該按其定義式對門限做出調整。

又由於似然比在很多情況下具有指數函式的形式,因為自然對數是單調的增函式,並且似然比和似然比檢測門限非負,所以判決可等價為:
l n ( Λ ( x ) ) > H 1 < H 0 l n ( λ 0 ) ln(\Lambda(x))\frac{>H_1}{<H_0}ln(\lambda_0) ln(Λ(x))<H0>H1ln(λ0)
利用貝葉斯判決準則進行檢測的基本步驟:

  • 計算兩個概率密度函式
  • 根據兩個假設的先驗概率和代價因子,計算判決門限
  • 形成貝葉斯檢測基本表示式
  • 化簡

計算判決概率的基本原則:根據化簡後的最簡判決表示式進行計算

計算判決概率的計算步驟:

  • 推導貝葉斯檢測準則的最簡表示形式
  • 根據最簡表示形式,計算各種假設下,統計量的概率密度函式P(x|H0)、P(x|H1)
  • 計算判決概率

P ( H 0 ∣ H 1 ) = ∫ − ∞ γ p ( x ∣ H 1 ) d x ; P ( H 1 ∣ H 0 ) = ∫ γ ∞ p ( x ∣ H 0 ) d x P(H_0|H_1)=\int_{-\infty}^{\gamma}p(x|H_1)dx;P(H_1|H_0)=\int_{\gamma}^{\infty}p(x|H_0)dx P(H0H1)=γp(xH1)dx;P(H1H0)=γp(xH0)dx

5.介紹貝葉斯準則的兩種派生準則

最小總錯誤概率準則和最大似然準則

在通訊系統中,通常正確判決不付出代價,錯誤判決付出代價相同,此時的判決式為
P ( x ∣ H 0 ) P ( x ∣ H 1 ) > H 1 < H 0 P ( H 0 ) P ( H 1 ) \frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)} P(xH1)P(xH0)<H0>H1P(H1)P(H0)
假設H0和H1的先驗概率相等,則似然比檢驗為
Λ ( x ) = P ( x ∣ H 0 ) P ( x ∣ H 1 ) > H 1 < H 0 1 \Lambda(x)=\frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}1 Λ(x)=P(xH1)P(xH0)<H0>H11
此時,可將先驗概率準則稱為最大似然準則

最大後驗概率準則

在貝葉斯準則中,當代價因子滿足(C10-C00)=(C01-C11)時,判決規則變為
P ( x ∣ H 0 ) P ( x ∣ H 1 ) > H 1 < H 0 P ( H 0 ) P ( H 1 ) \frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)} P(xH1)P(xH0)<H0>H1P(H1)P(H0)
或等價寫成
P ( H 1 ) P ( x ∣ H 1 ) > H 1 < H 0 P ( H 0 ) P ( x ∣ H 0 ) P(H_1)P(x|H_1)\frac{>H_1}{<H_0}P(H_0)P(x|H_0) P(H1)P(xH1)<H0>H1P(H0)P(xH0)

P ( H 1 ∣ x ) P ( x ) = P ( x ∣ H 1 ) P ( H 1 ) ; P ( H 0 ∣ x ) P ( x ) = P ( x ∣ H 0 ) P ( H 0 ) P(H_1|x)P(x)=P(x|H_1)P(H_1); P(H_0|x)P(x)=P(x|H_0)P(H_0) P(H1x)P(x)=P(xH1)P(H1);P(H0x)P(x)=P(xH0)P(H0)

P ( H 1 ∣ x ) P ( x ) > H 1 < H 0 P ( H 0 ∣ x ) P ( x ) P(H_1|x)P(x)\frac{>H_1}{<H_0}P(H_0|x)P(x) P(H1x)P(x)<H0>H1P(H0x)P(x)

P ( H 1 ∣ x ) > H 1 < H 0 P ( H 0 ∣ x ) P(H_1|x)\frac{>H_1}{<H_0}P(H_0|x) P(H1x)<H0>H1P(H0x)
上式為當觀測量x已經獲得的情況下,假設H1和H0成立的概率,即後驗概率。

2.4Q學習

以Flappy Bird為例來理解Q學習

問題分析

我們可以通過強化學習來解決小鳥怎麼飛這個問題。強化學習中有狀態(state)、動作(action)、獎賞(reward)這三個要素。智慧體(Agent,指小鳥)會根據當前狀態來採取動作,並記錄被反饋的獎賞,以便下次再到相同狀態時能採取更優的動作。

狀態的選擇

取小鳥到下一組管子的水平距離和垂直距離差作為小鳥的狀態。更準確地說,△x與△y的定義如下圖所示,其中△x為水平舉例,△y為水平距離。

flappy_bird.png

動作的選擇
每一幀,小鳥只有兩種動作可選:

  1. 向上飛一下
  2. 什麼都不做

獎賞的選擇

  • 小鳥活著時,每一幀給予1的獎賞
  • 若死亡,則給予-1000的獎賞

關於Q

Q動作效用函式(action-utility function),用於評價在特定狀態下采取某個動作的優劣。它是智慧體的記憶

在這個問題中, 狀態和動作的組合是有限的。所以我們可以把Q當做是一張表格。表中的每一行記錄了狀態(△x,△y),選擇不同動作(飛或不飛)時的獎賞:

狀態不飛
(△x1,△y1)120
(△x1,△y2)20-100
(△xm,△yn-1)-1002
(△xm,△yn)50-200

這張表一共m×n行,表示m×n個狀態,每個狀態所對應的動作都有一個效用值

理想狀態下,在完成訓練後,我們會獲得一張完美的Q表格。我們希望只要小鳥根據當前位置查詢到對應的行,選擇效用值較大的動作作為當前幀的動作,就可以無限地存活。

訓練

初始化 Q = {};
while Q 未收斂:
    初始化小鳥的位置S,開始新一輪遊戲
    while S != 死亡狀態:
        使用策略π,獲得動作a=π(S) 
        使用動作a進行遊戲,獲得小鳥的新位置S',與獎勵R(S,a)
        Q[S,A] ← (1-α)*Q[S,A] + α*(R(S,a) + γ* max Q[S',a]) // 更新Q
        S ← S'

其中需注意的地方:

1、使用策略π,獲得動作a=π(S);最直觀易懂的策略π(S)是根據Q表格來選擇效用最大的動作(若兩個動作效用值一樣,如初始時某位置處效用值都為0,那就選第一個動作)。

2、更新Q表格的公式如下所示:
Q ( S , A ) ← ( 1 − α ) Q ( S , A ) + α [ R ( S , α ) + γ max ⁡ α Q ( S ′ , α ) ] Q(S,A)\leftarrow(1-\alpha)Q(S,A)+\alpha[R(S,\alpha)+\gamma\max_\alpha{Q(S',\alpha)}] Q(S,A)(1α)Q(S,A)+α[R(S,α)+γαmaxQ(S,α)]
其中α學習速率(learning rate),γ折扣因子(discount factor)。根據公式可以看出,學習速率α越大,保留之前訓練的效果就越少。折扣因子γ越大,maxQ(S’,α)所起到的作用就越大。但maxQ(S’,α)指什麼呢?

考慮小鳥在對狀態進行更新時,會關心到眼前利益R,和記憶中的利益maxQ(S’,α)。

maxQ(S’,α)是記憶中的利益。它是小鳥記憶裡,新位置S’能給出的最大效用值。如果小鳥在過去的遊戲中於位置S‘的某個動作上吃過甜頭(例如選擇了某個動作之後獲得了50的獎賞),這個公式就可以讓它提早地得知這個訊息,以便使下回再通過位置S時選擇正確的動作繼續進入這個吃甜頭的位置S’。

可以看出,γ越大,小鳥會越重視以往經驗;γ越小,小鳥只重視眼前利益。

第三章

3.1多目標優化

層次分析法的定義:層次分析法這是一種定性和定量相結合的、系統的、層次化的分析方法。

層次分析法的特點:層次分析法是在對複雜決策問題的本質、影響因素及其內在關係等進行深入研究的基礎上,利用較少的定量資訊使決策的思維過程數學化,從而為多目標、多準則或無結構特性的複雜決策問題提供簡便的決策方法,是對難以完全定量的複雜系統做出決策的模型和方法。

層次分析法的原理:層次分析法根據問題的性質和要達到的總目標,將問題分解為不同的組成因素,並按照因素間的相互關聯影響以及隸屬關係將因素按不同的層次聚集組合,形成一個多層次的分析結構模型,從而最終使問題歸結為最低層(供決策的方案、措施等)相對於最高層(總目標)的相對重要權值的確定或相對優劣次序的排定。

層次分析法的步驟

  1. 建立層次結構模型;
  2. 構造判斷(成對比較)矩陣;
  3. 層次單排序及其一致性檢驗;
  4. 層次總排序及其一致性檢驗;

一致性檢驗

所謂一致性檢驗是指對成對比較矩陣確定不一致的允許範圍

成對比較的不一致情況

不一致.png

一致.png

一致陣的性質

  1. a i j = 1 a j i , a i i = 1 ( i , j = 1 , 2 , . . . , n ) a_{ij}=\frac{1}{a_{ji}},a_{ii}=1(i,j=1,2,...,n) aij=aji1,aii=1(i,j=1,2,...,n)

  2. AT也是一致陣;

  3. A的各行成比例,則A矩陣轉秩為1;

  4. A 的最大特徵根(值)為λ=n,其餘的n-1個特徵根均等於0;

  5. A的任一列(行)都是對應於特徵根n的特徵向量,AW=nW;

定義一致性標準
C I = λ − n n − 1 CI=\frac{\lambda-n}{n-1} CI=n1λn
其中λ為矩陣的最大特徵值,n為矩陣的階數。

1.CI=0,有完全的一致性;2.CI接近於0,有滿意的一致性;3.CI越大,不一致越嚴重。

定義一致性比率
C R = C I R I CR=\frac{CI}{RI} CR=RICI
其中RI可查表獲得,如下表所示

n12345
RI000.580.901.12

一般,當一致性比率CR<0.1時,認為A的不一致性程度是在容許的範圍之內,有滿意的一致性,通過一致性檢驗,可用其歸一化特徵向量作為權向量。

3.2博弈論基礎

囚徒困境

佈雷斯悖論

在完全資訊博弈中,如果在每個給定資訊下,只能選擇一種特定策略,這個策略為純策略(pure strategy)。如果在每個給定資訊下只以某種概率選擇不同策略,稱為混合策略(mixed strategy)。混合策略是純策略在空間上的概率分佈,純策略是混合策略的特例。純策略的收益可以用效用表示,混合策略的收益只能以期望效用表示。

第四章

4.1頻譜感知技術

頻譜感知技術是認知無線電應用的基礎和前提,也是認知無線電核心技術。頻譜感知是在不干擾授權使用者的前提下,實時監測可用頻段並進行相關分析,從而發現頻譜空洞。頻譜感知技術必須要保證良好的檢測效能,一旦檢測概率偏低,就會對授權使用者正常的通訊造成干擾,而虛警概率偏高則會導致認知使用者無法正常接入空閒頻譜,降低頻譜的利用率。頻譜感知分為單節點感知與多節點協作感知。

單節點頻譜感知即單個使用者獨立判決,不涉及複雜的系統結構和資料融合問題,相對簡單。但感知效能提升無法突破物理侷限瓶頸。在此背景下,協作頻譜感知被提出,有效克服了單節點物理侷限,提高了頻譜感知效能,能更好地適用於更低的訊雜比環境。多節點協作通過檢測節點間的協作達到系統要求的檢測門限,從而降低對單個檢測節點的要求,降低單個節點的負擔。

頻譜感知技術可以歸納為發射機檢測 、協作檢測和基於干擾的頻譜檢測,其中發射機檢測常用的主要有能量檢測法,匹配濾波器法和基於訊號迴圈平穩特性的檢測。

能量檢測演算法計算量小、實現簡單、不需要主使用者的先驗知識,但由於其易受噪聲不確定度影響,在低訊雜比時檢測效能急劇下降;近年來基於隨機矩陣理論的方法逐漸應用於頻譜感知。這種方法將協方差矩陣的特徵值作為訊號的檢驗統計量,再利用統計特徵與門限比較從而實現頻譜感知。但是這種方法需要計算特徵值及對門限的準確估計,而門限估計值的精度嚴重影響著頻譜感知的效果;匹配濾波器法需要對主要使用者的訊號進行解調,意味著需要主使用者訊號的先驗知識,如調製方式、資料包格式等,主要優點在於它只需要很短的時間就可以獲得高處理增益,缺點在於認知無線電對於每種型別的主要使用者都要有一個專門的接收器,且需要通過時間和載頻同步甚至通道同步來獲得與主要使用者訊號的相關性。

協作感知有兩種模式:中心式感知和分散式感知。

中心式感知:

  • 一箇中心節點收集各個認知節點的感知資訊,並最終確定可用的頻譜空洞,然後將這一結果廣播給所有的認知節點或是由此中心節點直接控制認知無線電的傳輸。
  • 各認知節點的資訊收集主要有資訊硬合併和軟合併兩種方式。資訊硬合併是指各個認知節點將本地感知結果位元量化後通過控制通道傳送給中心節點,中心節點根據這些位元資訊直接判斷某一頻段是否可用。資訊軟合併是指中心節點收到各個認知節點的感知結果後並不直接給出頻段是閒是忙的結果,而是得到一個似然比值,根據這一比值得到頻段是空閒的概率。
  • 當認知節點數目很大時,若按照原有的方案,每個節點都傳輸本地感知結果,那麼控制通道需要相當大的頻寬,這在實際中是不可行的。為了解決這個問題,每個節點將本地感知結果進行一位元量化。

分散式感知:

  • 在這種模式下,各個感知節點相互之間共享資訊,但是各個節點獨立地做出決定哪一頻段可供自己使用。相比於前面介紹的中心式感知模式,分散式不需要配置基礎網路結構,從而降低了開銷。

4.2自組織網路

自組織網路(SON)是指自身能夠探測周圍環境資訊及其變化並能夠由此做出自主決策,並擁有自配置和自優化功能的通訊網路功能,是解決未來網路維護工作,提高網路服務質量並大幅降低網路維護成本的一條有效途徑。無線網佔整個裝置投資的70%,且是整個網路的“bottle Neck”,因此目前研究主要集中於無線網。

SON系統架構型別

  • 集中式:SON功能和演算法集中在一個網元中;SON功能可以和O&M功能位於同一個網元內;
  • 混合式:不同SON功能存在於不同級別的網元;同一SON功能同時分佈在eNB和集中SON網元中;
  • 分散式:SON功能分佈在各eNB實體中;

集中式SON

  • 優點:eNBs控制引數相同;容易支援多供應商環境;容易與現有網管系統整合;便於人工控制。
  • 缺點:引入了新的集中式SON網元;演算法複雜,很難實現;反饋時間較長;需要定義更多開放的網元間介面。

分散式SON

  • 優點:相應速度快;可伸縮性好;結構更加靈活;網路結構簡單。
  • 缺點:缺乏集中控制,易彼此衝突;不易達到最高效率;難於支援多供應商環境;處理資訊量好,演算法較簡單。

混合式SON

  • 優點:同時利用集中式SON和分散式SON的優點;可以相容供應商各自的特殊解決方案。
  • 缺點:網路結構,信令結構都非常複雜;集中式和分散式SON功能之間功能劃分較難。

例題部分

簡答題

1、認知網路需具備哪些特徵?請舉例說明這些特徵對於提升通訊網路效能的意義。

定義:認知網路是具有認知過程,能感知當前網路條件,然後依據這些條件作出規劃、決策和採取動作的網路。它具有對網路環境的自適應能力,具有對以前決策的評判和未來決策判定的學習能力,決策要達到的都是端到端的目標,即網路目標。

定義中主要包含兩個方面的內涵:1)認知網路中具有端到端的目標,這也是認知網路區別於其他認知技術或自適應技術最根本的特徵。2)認知網路具有學習和自適應能力,能對“感知-規劃-決策-行動”整個動態自適應過程進行學習,並將學習到的知識用於指導未來的決策。

以認知無線電為例,它是為解決頻譜資源匱乏,提高頻譜利用率而提出。**核心思想就是使無線通訊裝置具有發現“頻譜空洞”併合理利用的能力。**認知無線電是建立在軟體無線電平臺上的一種內容認知型的智慧無線電。認知無線電技術將連續不斷的認知外部環境的各種資訊(如授權使用者終端和無線電終端的工作頻率、調製方式、接收端的訊雜比、網路的流量分佈等),並對這些資訊進行分析、學習和判斷,然後通過無線電知識描述語言和其他認知無線電終端進行智慧交流,以選擇合適的工作頻率、調製方式、發射功率、介質訪問協議和路由等,保證整個網路能夠始終提供可靠的通訊,最終達到最佳的頻譜利用率。

2、說明增強學習的適用範圍,敘述基於模型的增強學習方法。

增強學習的適用範圍:增強學習要解決這樣的問題:能夠感知環境的自治agent,怎樣通過學習選擇能達到其目標的最優動作。這個具有很普遍性的問題應用於學習控制移動機器人、在工廠中學習最優操作工序以及學習棋類對弈等。

首先學習狀態轉移模型與回報模型。**狀態轉移模型:**描述行動集與狀態集之間的對映關係,描述了各項行動(或輸入)對系統狀態的影響。**回報模型:**系統的各個狀態對期望目標的影響程度,或者說對期望目標的貢獻值

對於一個隨機系統而言,回報學習是指獲得關於狀態的回報函式的概率分佈,狀態為s,採用行動a,獲得的回報總數值與狀態為s,採用行動a的次數之比。

為了學習狀態轉移模型,可以做多次試驗,例如在狀態為s時,採取行動a,系統轉移到狀態s’的概率

基於模型的增強學習方案:智慧體顯式地學習物件或環境模型,。需要面臨學習與決策的代價折中問題,決策即行動,重規劃即模型學習從回報和懲罰中學習。增強學習智慧體必須做出決策,可以依據即時的回報、對未來狀態的預測,這個策略應便於學習,即從物件或環境中獲取資訊。

3、最大似然和貝葉斯比較

最大似然估計將引數看做是確定的量,只是其值是未知,通過最大化觀察樣本概率得到最優的引數——用分析方法。

貝葉斯估計將引數看成服從某種先驗概率分佈的隨機變數,對樣本進行觀測的過程,就是把先驗概率密度轉化成後驗概率密度,使得對於每個新樣本,後驗概率密度函式在待估引數的真實值附近形成最大尖峰。

最大似然估計的優點:當樣本數目增加時,收斂性質會更好;比其他可選擇的技術更加簡單
貝葉斯估計的優點:在貝葉斯估計中θ為隨機變數

最大似然估計和貝葉斯引數估計的區別
最大似然估計貝葉斯引數估計
計算複雜度微分多重積分
可理解性確定易理解不確定不易理解
先驗資訊的信任程度不準確準確
例如p(x|θ)與初始假設一致與初始假設不一致

4、給出帕累托最優的定義?帕累托最優解適合表徵哪類優化問題的最優解?

帕累托最優是指資源分配的一種理想狀態,假定固有的一群人和可分配的資源,從一種分配狀態到另一種狀態的變化中,在沒有使任何人境況變壞的前提下,使得至少一個人變得更好, 這就是帕累託改進或帕累托最優化。帕累托最優的狀態就是不可能再有更多的帕累託改進的餘地,即不可能再改善某些人的境況,而不使任何其他人受損,它是一種資源最優化配置的狀態;換句話說,帕累託改進是達到帕累托最優的路徑和方法。

帕累托最優解適合表徵多目標優化問題的最優解。對於多目標優化問題而言,帕累托最優解只是問題的一個可接受解,一般都存在多個帕累托最優解,這時就需要人們根據價值觀來決策了。

5、什麼是混合策略博弈,與純策略博弈相比,混合策略博弈有何優勢?

定義:在完全資訊博弈中,如果在每個給定資訊下,只能選擇一種特定策略,這個策略為純策略。如果在每個給定資訊下只以某種概率選擇不同策略,稱為混合策略。混合策略是純策略在空間上的概率分佈,純策略是混合策略的特例。純策略的收益可以用效用表示,混合策略的收益只能以期望效用表示。

優勢:對部分博弈而言,有時是找不到純策略的均衡的,如石頭剪刀布遊戲,無論雙方採用哪種策略組合,輸的一方總可以改變策略使自己反敗為勝。此時我們應當給每個純策略分配一個概率,並希望期望的收益最大,期望的收益就是純策略的博弈結果乘上該結果出現的概率,並對每個博弈結果進行求和。當博弈是零和博弈,即一方所得是另外一方所失時,此時只有混合策略均衡。

6、層次分析法適合於求解哪類優化問題?從通訊、影像處理等方面選一優化問題,說明層次分析法的建模與求解過程,不要求具體數值。

層次分析法是一種定性和定量相結合的、系統的、層次化的分析方法,適合於求解含有主、客觀因素及要求與期望模糊的多目標優化問題,該類問題具有分層交錯的目標系統,且目標值難以定量描述。

此法把決策問題按總目標、各層子目標、評價準則直至具體的備選方案的順序分解為不同的層次結構,然後利用求判斷矩陣特徵向量的方法,求得每一層次的各元素對上一層次元素的優先權重,最後再用加權和的方法遞階歸併各備選方案對總目標的最終權重,此最終權重值最大者即為層優方案。這裡所謂“優先權重”是一種相對的量度,它表明各備選方案在某一特定的評價準則或子目標下優越的相對量度,以及各子目標對上一層目標(或總目標)而言重要程度的相對量度。

簡述題

1、設計一個認知多址方案或認知路由方案,要求:

(1)、給出應用場景,說明為什麼需要採用認知技術;

(2)、說明方案中各模組的功能;

(3)、給出各模組功能可能涉及的關鍵技術名稱。

答:(1)、

  • 應用場景:自組織網路;
  • 原因:眾所周知,頻譜資源十分有限,一些非授權頻段佔用擁擠,而那些授權頻段卻經常空閒,因此,可以考慮在授權使用者不用自己的頻率資源時,讓一些非授權使用者去暫時性地有效利用該空閒頻譜,認知無線電技術就是基於這種想法提出來的一種智慧的頻譜共享技術,它可以感知無線通訊環境,依據一定的學習和決策演算法,動態地檢測和有效地利用空閒頻譜,大大降低了頻譜和頻寬對無線技術發展的束縛。

(2)、

  • 環境感知模組:負責獲取網路環境資訊,並將業務需求對映為網路端到端的需求,作為路由構建的優化目標。
  • 路由決策模組:負責路由的構建、更新與補救。它依據測量資訊和優化目標,選擇路由策略,如協同路由、多輸入多輸出(MIMO)路由、跨層路由等。
  • 重構模組:負責路由的配置。如採用跨層路由協議,還須配置運輸層、鏈路層和物理層。
  • 自學習模組:負責策略評估、修正與生成,以適應網路環境的變化。

(3)、

  • 環境感知模組:頻譜檢測技術,無線引數認知優化技術;

  • 路由決策模組:資料傳輸技術,如OFDM;

  • 重構模組:自適應頻譜資源分配技術,頻譜資源管理技術;

  • 自學習模組:認知優化技術

2、舉例說明決策樹剪枝的必要性

剪枝的目的是為了避免決策樹模型的過擬合。因為決策樹演算法在學習的過程中為了儘可能的正確的分類訓練樣本,不停地對結點進行劃分,因此這會導致整棵樹的分支過多,也就導致了過擬合

舉例:給出如下的一組資料,一共有十個樣本(學生數量),每個樣本有分數,出勤率,回答問題次數,作業提交率四個屬性,最後判斷這些學生是否是好學生。最後一列給出了人工分類結果。

學生編號分數出勤率是否為好學生
19980%
289100%
369100%
45060%
59520%
69860%
79265%
89180%
98580%
108591%

比如以第一個屬性為例:設閾值小於70可將樣本分為2組,但是分錯了1個。如果設閾值小於70,再加上閾值等於95,那麼分錯率降到了0,但是這種分割顯然只對訓練資料有用,對於新的資料沒有意義,這就是所說的過擬合。決策樹是通過分析訓練資料,得到資料的統計資訊,而不是專為訓練資料量身定做,所以決策樹剪枝是必要的。

計算題

1、在下圖的方格世界中,表示為G的方格為目標方格,目標方格G的立即回報為100,圖中的箭頭上的度量值表示從一個方格轉至相鄰方格的折算累計回報,折算因子γ為0.6,要求:

1)列寫Q學習演算法中的最大折算累計回報(評估函式)Q(s,a)的遞迴表示式,其中s為狀態,a為動作;

2)計算相鄰方格間的最大折算累計回報Q(s,a);

3)計算每個方格的狀態回報值V*(s)。

Q學習.png

解:

1)Q(s,a)=(1-α)Q(s,a)+α[R(s,a)+γmaxaQ(s’,a)]

註解:

其中α為學習速率,學習速率α越大,保留之前訓練的效果就越少。(本題中α預設為1);

R(s,a)為在s的狀態下采取a動作所獲得的回報;

maxaQ(s’,a):s‘為新位置,所以該項即為新位置s’所能給出的最大回報值;

可以將R(s,a)看做眼前利益,將maxaQ(s’,a)視作記憶中的利益。

γ為折算因子,折算因子越大,訓練時越重視以往的經驗,越小,則越重視眼前利益。

2)將方格從左至右,從上到下依次從小到大進行編號,即左上為方塊1,右下為方塊8。

計算順序:

Q(4,4→8)=100;(4表示當前在方塊4位置,4→8表示採取的動作為從方塊4進入方塊8,因為方塊8為目標方塊,所以獲得立即回報100)

Q(7,7→8)=100;原因同上,此時已學習到在方塊4和方塊7狀態下最大都能獲得100的回報;

Q(8,8→4)=0+0.6×100=60;從方塊8到方塊4沒有回報,所以R(8,8→4)=0,但記憶中到達方塊4時有100的回報,再將此記憶中的回報乘以折算因子算進去,就得到60的回報值。

Q(8,8→7)=0+0.6×100=60;Q(3,3→4)=0+0.6×100=60;Q(3,3→7)=0+0.6×100=60;Q(4,4→3)=0+0.6×60=36;Q(7,7→3)=0+0.6×60=36;Q(2,2→3)=0+0.6×60=36;Q(6,6→7)=0+0.6×100=60;Q(7,7→6)=0+0.6×60=36;

Q(2,2→6)=0+0.6×60=36;Q(5,5→6)=0+0.6×60=36;Q(3,3→2)=0+0.6×36=21.6;Q(6,6→2)=0+0.6×36=21.6;Q(1,1→2)=0+0.6×36=21.6;Q(6,6→5)=0+0.6×36=21.6;Q(1,1→5)=0+0.6×36=21.6;Q(2,2→1)=0+0.6×21.6=12.96;Q(5,5→1)=0+0.6×21.6=12.96;結果如下圖所示。

3)V*(s)=maxaQ(s,a),即當前狀態下能獲得的最大回報,圖中各方塊內的較小的數字即為在當前方塊狀態下采取各動作所獲的回報,帶下劃線的數字即為當前狀態下能獲得的最大回報。

1-7方塊狀態下所能獲得的最大回報依次為:21.6、36、60、100、36、60、100;結果如下圖所示。

Q學習答案.png

2、網路中有4個節點,分別為節點a、b、c、d,其中節點a為源節點,節點d為目的節點,從源節點到目的節點有兩條路徑,路徑p1經過節點b到達目的節點,路徑p2經過節點c到達目的節點,業務流經過各條鏈路的時延如下:

Cab(fab)=8fab,Cac(fac)=fac+50,Cbd(fbd)=fbd+50,Ccd(fcd)=8fcd

其中,Cab(fab)為鏈路ab的代價函式,fab為流經鏈路ab的流量,其餘符號類推。

問題1:假設從源節點到目的節點的業務流有6個,試用博弈論確定兩條路徑流量的納什均衡點及各鏈路上的負荷。

問題2:在節點b與節點c之間增加一條鏈路,如圖2所示,業務流經過該鏈路的代價為Cbc(fbc)=fbc+10。於是增加了一條路徑p3,路徑p3經過節點b、c到達目的節點。假設需要傳輸的業務不變,且各業務流獨立選擇路徑,試用博弈論確定各條路徑流量的納什均衡點,各鏈路上的負荷。

問題3:增加鏈路,能否降低業務流端到端傳輸的代價。

博弈論題.png

問題1:從源點a到目的節點d,有兩條路徑,分別為a→b→d和a→c→d。

設a→b→d路徑上的流量為f,則a→c→d路徑上的流量為6-f。

Cabd=8f+f+50=9f+50;Cacd=(6-f)+50+8×(6-f)=104-9f;

若自由競爭,則Cabd=Cacd,即9f+50=104-9f,解得f=3;

所以當兩條路徑業務流都為3時,達到納什均衡。

問題2:此時流量共3條路徑,因為a→b→d和a→c→d兩條路徑的代價相同,故自由競爭時所獲的流量應相同。

設a→b→d和a→c→d兩條路徑上的流量為f,則a→b→c→d路徑上的流量為6-2f;

Cabcd=8×(6-2f)+(6-2f)+10+8×(6-2f)=112-34f;Cabd=Cacd=9f+50;

自由競爭下,Cabcd=Cabd=Cacd,即112-34f=9f+50,解得f=62/43。

取f=2為負荷,則負荷分別為2、2、2。

問題三:這是一個佈雷斯悖論。

兩條路徑的總代價為2×(27+50)=154;三條路徑的總代價為2×[9×(62/43)+50]+112-34×(62/43)=216.98

當增加一條路徑後,反而使總時間(總代價)增大,最優分配仍為不加此條路徑時的分配情況。

3、設接收機二元假設檢驗的觀測訊號模型為:

H0:yi=A+ni,i=1,2,3,…N

H1:yi=-A+ni,i=1,2,3,…N

其中ni為均值為0,方差為σ2的高斯隨機變數,且ni獨立於nj,i≠j。兩種假設的先驗概率分別為P(H0)和P(H1),貝葉斯檢測的代價因子分別為C00,C11,C10,C01,求解下列問題:

1)給出上述問題的貝葉斯檢測準則基本表示式;

2)推導接收機的檢測門限;

3)當c10-c00=c01-c11時,分別給出P(H0)=P(H1)和P(H0)=2*P(H1)的接收機檢測門限。

解:

1)
P ( y ∣ H 0 ) P ( y ∣ H 1 ) > H 1 < H 0 P ( H 0 ) P ( H 1 ) ( C 10 − C 00 ) ( C 01 − C 11 ) \frac{P(y|H_0)}{P(y|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})} P(yH1)P(yH0)<H0>H1P(H1)P(H0)(C01C11)(C10C00)

P ( y ∣ H 0 ) P ( y ∣ H 1 ) = P ( H 0 ∣ y ) P ( y ) P ( H 0 ) P ( H 1 ∣ y ) P ( y ) P ( H 1 ) = P ( H 0 ∣ y ) P ( H 1 ) P ( H 1 ∣ y ) P ( H 0 ) \frac{P(y|H_0)}{P(y|H_1)}=\frac{\frac{P(H_0|y)P(y)}{P(H_0)}}{\frac{P(H_1|y)P(y)}{P(H_1)}}=\frac{P(H_0|y)P(H_1)}{P(H_1|y)P(H_0)} P(yH1)P(yH0)=P(H1)P(H1y)P(y)P(H0)P(H0y)P(y)=P(H1y)P(H0)P(H0y)P(H1)

P ( H 0 ∣ y ) P ( H 1 ∣ y ) = 1 2 π σ 2 e − 1 2 σ 2 ( y − A ) 2 ÷ 1 2 π σ 2 e − 1 2 σ 2 ( y + A ) 2 = e 2 A y σ 2 \frac{P(H_0|y)}{P(H_1|y)}=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(y-A)^2}÷\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(y+A)^2}=e^{\frac{2Ay}{\sigma^2}} P(H1y)P(H0y)=2πσ2 1e2σ21(yA)2÷2πσ2 1e2σ21(y+A)2=eσ22Ay

故貝葉斯檢測準則基本表示式為
e 2 A y σ 2 P ( H 1 ) P ( H 0 ) > H 1 < H 0 P ( H 0 ) P ( H 1 ) ( C 10 − C 00 ) ( C 01 − C 11 ) e^{\frac{2Ay}{\sigma^2}}\frac{P(H_1)}{P(H_0)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})} eσ22AyP(H0)P(H1)<H0>H1P(H1)P(H0)(C01C11)(C10C00)
不等式兩邊取對數可得最簡判決式
y > H 1 < H 0 σ 2 2 A l n [ P ( H 0 ) 2 P ( H 1 ) 2 ( C 10 − C 00 ) ( C 01 − C 11 ) ] y\frac{>H_1}{<H_0}\frac{\sigma^2}{2A}ln[\frac{P(H_0)^2}{P(H_1)^2}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}] y<H0>H12Aσ2ln[P(H1)2P(H0)2(C01C11)(C10C00)]
2)接收機的檢測門限為
λ 0 = σ 2 2 A l n [ P ( H 0 ) 2 P ( H 1 ) 2 ( C 10 − C 00 ) ( C 01 − C 11 ) ] \lambda_0=\frac{\sigma^2}{2A}ln[\frac{P(H_0)^2}{P(H_1)^2}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})}] λ0=2Aσ2ln[P(H1)2P(H0)2(C01C11)(C10C00)]
3)①P(H0)=P(H1)時,接收機檢測門限為0;

②P(H0)=2*P(H1)時,接收機檢測門限為
λ 0 = − σ 2 A l n 2 \lambda_0=-\frac{\sigma^2}{A}ln2 λ0=Aσ2ln2
4、設二元假設檢驗的觀測訊號模型為
H 0 : x = − A + n H_0: x=-A+n H0:x=A+n

H 1 : x = A + n H_1: x=A+n H1:x=A+n

其中n是均值為0,方差為σ2的高斯隨機變數。若兩種假設是等先驗概率的,而代價因子為c00 =1,c10=4,c11 =2,c01 =8:

(1)試求貝葉斯判決表示式和平均代價C。

(2)若c10=c01=1,c00=c11=0,採用最小平均錯誤概率準則,試確定判決式,並求最小平均錯誤概率;

1)貝葉斯判決表示式如下:
P ( x ∣ H 0 ) P ( x ∣ H 1 ) > H 1 < H 0 P ( H 0 ) P ( H 1 ) ( C 10 − C 00 ) ( C 01 − C 11 ) \frac{P(x|H_0)}{P(x|H_1)}\frac{>H_1}{<H_0}\frac{P(H_0)}{P(H_1)}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})} P(xH1)P(xH0)<H0>H1P(H1)P(H0)(C01C11)(C10C00)

P ( x ∣ H 0 ) P ( x ∣ H 1 ) = P ( H 0 ∣ x ) P ( x ) P ( H 0 ) P ( H 1 ∣ x ) P ( x ) P ( H 1 ) = P ( H 0 ∣ x ) P ( H 1 ∣ x ) = = 1 2 π σ 2 e − 1 2 σ 2 ( x − A ) 2 ÷ 1 2 π σ 2 e − 1 2 σ 2 ( x + A ) 2 = e 2 A x σ 2 \frac{P(x|H_0)}{P(x|H_1)}=\frac{\frac{P(H_0|x)P(x)}{P(H_0)}}{\frac{P(H_1|x)P(x)}{P(H_1)}}=\frac{P(H_0|x)}{P(H_1|x)}==\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-A)^2}÷\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x+A)^2}=e^{\frac{2Ax}{\sigma^2}} P(xH1)P(xH0)=P(H1)P(H1x)P(x)P(H0)P(H0x)P(x)=P(H1x)P(H0x)==2πσ2 1e2σ21(xA)2÷2πσ2 1e2σ21(x+A)2=eσ22Ax
故貝葉斯判決表示式可改寫為下式
e 2 A x σ 2 > H 1 < H 0 ( C 10 − C 00 ) ( C 01 − C 11 ) e^{\frac{2Ax}{\sigma^2}}\frac{>H_1}{<H_0}\frac{(C_{10}-C_{00})}{(C_{01}-C_{11})} eσ22Ax<H0>H1(C01C11)(C10C00)
不等式兩邊取對數,將代價因子的值帶入,得最簡判決式如下:
x > H 1 < H 0 σ 2 2 A l n 1 2 {x}\frac{>H_1}{<H_0}\frac{\sigma^2}{2A}ln\frac{1}{2} x<H0>H12Aσ2ln21
平均代價為:
C ‾ = ∑ j = 0 1 ∑ i = 0 1 C i j P ( H j ) P ( H i ∣ H j ) \overline{\text{C}}=\sum_{j=0}^{1}\sum_{i=0}^{1}C_{ij}P(H_j)P(H_i|H_j) C=j=01i=01CijP(Hj)P(HiHj)

P ( H 0 ∣ H 1 ) = ∫ − ∞ σ 2 2 A l n 1 2 P ( x ∣ H 1 ) d x = ∫ − ∞ σ 2 2 A l n 1 2 1 2 π σ 2 e − 1 2 σ 2 ( x + A ) 2 d x = 1 σ 2 ∫ − ∞ A σ − σ 2 A l n 2 1 2 π e − u 2 2 d u = 1 σ 2 [ 1 − Q ( A σ − σ 2 A l n 2 ) ] P(H_0|H_1)=\int_{-\infty}^{\frac{\sigma^2}{2A}ln\frac{1}{2}}P(x|H_1)dx=\int_{-\infty}^{\frac{\sigma^2}{2A}ln\frac{1}{2}}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x+A)^2}dx=\frac{1}{\sigma^2}\int_{-\infty}^{\frac{A}{\sigma}-\frac{\sigma}{2A}ln2}\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}du=\frac{1}{\sigma^2}[1-Q(\frac{A}{\sigma}-\frac{\sigma}{2A}ln2)] P(H0H1)=2Aσ2ln21P(xH1)dx=2Aσ2ln212πσ2 1e2σ21(x+A)2dx=σ21σA2Aσln22π 1e2u2du=σ21[1Q(σA2Aσln2)]
同理
P ( H 1 ∣ H 0 ) = 1 σ 2 Q [ − A σ − σ 2 A l n 2 ] P(H_1|H_0)=\frac{1}{\sigma^2}Q[-\frac{A}{\sigma}-\frac{\sigma}{2A}ln2] P(H1H0)=σ21Q[σA2Aσln2]
其中Q[x]為高斯概率密度函式的累積分佈函式,此時帶回平均代價的公式即可求得平均代價。

2)由(1),可得此時判決式為
x > H 1 < H 0 0 {x}\frac{>H_1}{<H_0}0 x<H0>H10
最小平均錯誤概率為
P e = P ( H 0 ) P ( H 1 ∣ H 0 ) + P ( H 1 ) P ( H 0 ∣ H 1 ) P_e=P(H_0)P(H_1|H_0)+P(H_1)P(H_0|H_1) Pe=P(H0)P(H1H0)+P(H1)P(H0H1)
其中P(H0)和P(H1)為0.5,P(H1|H0)和P(H0|H1)可由(1)中的計算過程同理求得,此處不再贅述。

5、某博弈中甲乙雙方各有三個策略,其相應的支付矩陣如下圖所示:

1)甲會不會採用策略A,為什麼?

2)請剔除上述支付矩陣裡的佔劣策略。

3)請找出該博弈的純策略納什均衡。

納什均衡題.png

解:

1)甲不會採用策略A,策略A是甲的劣策略,它是劣於C的。

註解:從甲的角度看:若乙採用策略D,則甲採用策略B收益最大;若乙採用策略E,則甲採用策略C收益最大;若乙採用策略F,則甲採用策略B收益最大;綜上,甲不會採用策略A。

2)由1的註解可知,對於甲而言,A是一個劣策略,可以剔除。

從乙的角度看:若甲採用A策略,則乙採用策略D收益最大;若甲採用B策略,則乙採用策略E收益最大;若甲採用C策略,則乙採用策略E收益最大。綜上,對於乙而言,策略D是一個劣策略,可以剔除。

3)重新從乙的角度看,現在認為甲已剔除它的劣策略A;若甲採用策略B,則乙採用策略E收益最大;若甲採用策略C,則乙採用策略E收益最大;此時F成為乙的劣策略,可以剔除;

此時再從甲的角度看,已知乙採用策略E,則甲採用C策略收益最大。

綜上,納什均衡為(C,E)。

tips:支付矩陣是指在博弈論中,用來描述兩個人或多個參與人的策略和支付的矩陣。不同參與人的利潤或效用就是支付。

6、利用增熵原理確定決策樹的父節點。

DayOutlookTemperatureHumidityWindPlay Tennis
1SunnyHotHighWeakNo
2SunnyHotHighStrongNo
3OvercastHotHighWeakYes
4RainMildHighWeakYes
5RainCoolNormalWeakYes
6RainCoolNormalStrongNo
7OvercastCoolNormalStrongYes
8SunnyMildHighWeakNo
9SunnyCoolNormalWeakYes
10RainMildNormalWeakYes
11SunnyMildNormalStrongYes
12OvercastMildHighStrongYes
13OvercastHotNormalWeakYes
14RainMildHighStrongNo

解:記Play Tennis為事件S,則事件S的熵為
E n t r o p y ( S ) = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 = 0.94 Entropy(S)=-\frac{9}{14}log_2{\frac{9}{14}}-\frac{5}{14}log_2{\frac{5}{14}}=0.94 Entropy(S)=149log2149145log2145=0.94
若以Humidity為節點進行分類,結果如下

Humidity.png

其中3+,4-表示在Humidity為High時,有3次Play Tennis事件為Yes,4次為No。E=0.985的計算公式如下:
E = − 3 7 l o g 2 3 7 − 4 7 l o g 2 4 7 = 0.985 E=-\frac{3}{7}log_2{\frac{3}{7}}-\frac{4}{7}log_2{\frac{4}{7}}=0.985 E=73log27374log274=0.985
餘者原理類似,故不再贅述。
G a i n ( S , H u m i d i t y ) = 0.94 − 7 14 × 0.985 − 7 14 × 0.592 = 0.151 Gain(S,Humidity)=0.94-\frac{7}{14}×0.985-\frac{7}{14}×0.592=0.151 Gain(S,Humidity)=0.94147×0.985147×0.592=0.151
其中第一個7/14表示Humidity中High出現的概率,第二個7/14表示Humidity中Normal出現的概率。

所以Humidity屬效能為最終事件S的判定減少0.151的熵。(熵越大,事件的不確定性越大)

同理,可得
G a i n ( S , W i n d ) = 0.94 − 8 14 × 0.811 − 6 14 × 1 = 0.048 Gain(S,Wind)=0.94-\frac{8}{14}×0.811-\frac{6}{14}×1=0.048 Gain(S,Wind)=0.94148×0.811146×1=0.048

G a i n ( S , O u t l o o k ) = 0.94 − 5 14 × ( − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 ) − 4 14 × 0 − 5 14 × ( − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 ) = 0.246 Gain(S,Outlook)=0.94-\frac{5}{14}×(-\frac{2}{5}log_2{\frac{2}{5}}-\frac{3}{5}log_2{\frac{3}{5}})-\frac{4}{14}×0-\frac{5}{14}×(-\frac{2}{5}log_2{\frac{2}{5}}-\frac{3}{5}log_2{\frac{3}{5}})=0.246 Gain(S,Outlook)=0.94145×(52log25253log253)144×0145×(52log25253log253)=0.246

G a i n ( S , T e m p e r a t u r e ) = 0.029 Gain(S,Temperature)=0.029 Gain(S,Temperature)=0.029

由以上四個屬性的增熵結果可知,Outlook對事件S的判定減少的熵最大,故選擇Outlook為父節點

剩下三個節點的選擇過程與上述過程類似,讀者可嘗試自行推導。

參考

認知無線電

決策樹通俗易懂解釋

訊號處理中二元假設檢驗下的貝葉斯準則

如何用簡單例子講解 Q - learning 的具體過程?

下載連結

文件電子版下載連結

20年最新試題下載連結

相關文章