《機器學習》西瓜書學習筆記(五)

weixin_34208283發表於2017-10-24

上一篇筆記在這裡:《機器學習》西瓜書學習筆記(四)


第七章 貝葉斯分類器

7.1 貝葉斯分類器

假設有N種可能的類別標記,即Y={c1,c2,...,cN},λij是將一個真實標記為cj的樣本誤分類為ci所產生的損失。在樣本x上的“條件風險”是

8140224-a3d4ee3a66284f2f.png

我們的任務是尋找一判定準則h:X→Y以最小化總體風險

8140224-46762732fff29638.png

可以看出,要想最小化總體風險,僅需最小化條件風險,即

8140224-ed593be0fb3c5551.png

h*稱為貝葉斯最優分類器,與之對應的總體風險R(h*)稱為貝葉斯風險。1-R(h*)反映了最好效能。

若最小化分類錯誤率,則誤判損失λij可寫為

8140224-f08512cc5c059320.png

此時條件風險

8140224-3d2c4466c1c8f734.png

於是,最小化分類錯誤率的貝葉斯最優分類器是

8140224-77f1e89aa28b5613.png

貝葉斯定理

8140224-4179817169d997ce.png

7.2 極大似然估計

記關於類別c的類條件概率為P(x|c),假設P(x|c)具有確定的形式並且被引數向量θc唯一確定,則我們的任務就是利用訓練集D估計引數θc。為明確起見,將P(x|c)記為P(x|θc)。

令Dc表示訓練集D中第c類樣本組成的集合,假設這些樣本是獨立同分布的,則引數θc對於資料集Dc的似然是

8140224-1af3bb7bd00548c0.png

對θc進行極大似然估計,就是去尋找能最大化似然P(Dc|θc)的引數值^θc

連乘操作容易產生下溢,通常使用對數似然(log-likelihood)

8140224-0a9ae442a71440ff.png
8140224-bf6a7258bd49f5c6.png

例如,在連續屬性條件下,假設概率密度函式P(x|c)~N(μc,σc2),則極大似然估計為

8140224-cad79bbe6322243e.png
8140224-f5fb5f00ceb7ee2f.png

7.3 樸素貝葉斯分類器

樸素貝葉斯分類器(Naive Bayes Classifier)採取了“屬性條件獨立性假設”(attribute conditional independence assumption):對已知類別,假設所有屬性相互獨立,有

8140224-44e76f1526edcf61.png

樸素貝葉斯分類器的表示式

8140224-a37c7741682f7eab.png

訓練過程如下:
令Dc表示訓練集D中第c類樣本組成的集合,若有充足的獨立同分布樣本,則可容易地估計類先驗概率

8140224-baff9604e3a1b84c.png

對離散屬性而言,令Dc,xi表示Dc中在第i個屬性為xi為樣本組成的集合,則條件概率P(xi|c)可估計為

8140224-565437db76809afd.png

對連續屬性可考慮概率密度函式,假定p(xi|c)~N(μc,ic,i2),其實μc,i和σc,i2分別是第c類樣本在第i個屬性上取值的均值和方差,則有

8140224-2bd7dfdf6377bd73.png

拉普拉斯修正(Laplacian correction):
若某個屬性值在訓練集中沒有於某個類同時出現過,直接算的話就為0了。為了避免這個情況,要有一個修正:

8140224-3a7a6aced529c1f1.png
8140224-97d5ce5af25454f8.png

N表示D中可能的類別數,Ni表示第i個屬性可能的取值數。

7.4 半樸素貝葉斯分類器

半樸素貝葉斯分類器的基本想法是適當考慮一部分屬性間的相互依賴資訊。“獨依賴”就是假設每個屬性在類別之外最多僅依賴於一個其他屬性,即

8140224-58981155ab4bf925.png

其中pai為屬性xi所依賴的屬性,稱為xi的父屬性。
最直接的做法是假設所有屬性都依賴於同一個屬性,稱為“超父”(super-parent),然後通過交叉驗證等模型選擇方法來確定超父屬性,由此形成了SPODE(Super-Parent ODE)方法。

8140224-b06fb77b621a33a9.png

TAN(Tree Augmented naive Bayes)則是在最大帶權生成樹演算法的基礎上,有以下步驟:

  • 計算任意兩個屬性之間的條件互資訊(conditional mutual information)
8140224-c2d28fddeeb3b688.png
  • 以屬性為結點構建完全圖,任意兩個結點之間邊的權重設為I(xi,xj|y);
  • 構建次完全圖的最大帶權生成樹,挑選根變數,將邊置為有向;
  • 加入類別結點y,增加從y到每個屬性的有向邊。

AODE(Averaged One-Dependent Estimator)是一種基於整合學習機制、更為強大的獨依賴分類器。

8140224-242e94b5248731e8.png

其中Dxi是在第i個屬性上取值為xi的樣本的集合,m'為閾值常數。顯然,AODE需估計P(c,xi)和P(xj|c,xi)

8140224-a01cdcd5ff71f2fe.png
8140224-7e002bb4f31a0cc7.png

7.5 貝葉斯網

貝葉斯網亦稱“信念網”,藉助有向五環圖來刻畫屬性之間的依賴關係。

8140224-522e102b3cad8c35.png
7.2 西瓜問題的一種貝葉斯網結構

7.5.1 結構

8140224-ae9e88b6d1aee383.png

以上圖為例,聯合概率分佈定義為

8140224-077c70c1f67023dd.png
8140224-dd64a3b7f8dda940.png
貝葉斯網中三個變數之間的典型依賴關係

“有向分離”:

  • 找出有向圖中所有V型結構,在V型結構的兩個父結點之間的加上一條無向邊。
  • 將所有有向邊變成無向邊。

由此產生的無向圖稱為“道德圖”,該過程稱為“道德化”。

8140224-1c6783dc107c026f.png
圖7.2對應的道德圖

7.5.2 學習

評分函式:給定訓練集D={x1,x2,...,xm},貝葉斯網B={G,Θ}在D上的評分函式可寫為

8140224-8d19726c051cfd21.png

其中,|B|是貝葉斯網的引數個數;f(θ)表示描述每個引數θ所需的位元組數;而

8140224-8037b406399fa63e.png

是貝葉斯網B的對數似然。評分函式的第一項是計算編碼貝葉斯網B所需的位元組數,第二項是計算B所對應的概率分佈PB對D描述得有多好。我們要做的是尋找一個貝葉斯網B使評分函式s(B|D)最小。

  • 若f(θ)=1,即每個引數用1位元組描述,則得到AIC(Akaike Information Criterion)評分函式
8140224-297f39a38329762f.png
  • 若f(θ)=(1/2)log(m),即每個引數用(1/2)log(m)位元組描述,則得到BIC(Bayesian Information Criterion)評分函式
8140224-f13674240ae38840.png
  • 若f(θ)=0,則學習任務退化為極大似然估計。

7.5.3 推斷

8140224-4120ec16f6cb63ed.png

7.6 EM演算法

隱變數:未觀測變數。
X表示已觀測變數集,Z表示隱變數集,Θ表示模型函式。若欲對Θ做極大似然估計,則應最大化對數似然

8140224-a8d15877fb0d0167.png

然而由於Z是隱變數,上式無法直接求解。此時我們可通過對Z計算期望,來最大化已觀測資料的對數“邊際似然”(marginal likelihood)

8140224-7649760f231ef3a3.png

EM演算法:若引數Θ已知,則可根據訓練資料推斷出最優隱形變數Z的值(E步);反之,若Z的值已知,則可方便地對引數Θ做極大似然估計(M步)。
以初始值Θ0為起點,對上式可迭代執行以下步驟直至收斂:

  • 基於Θt推斷隱變數Z的期望,記為Zt
  • 基於已觀測變數XZt對引數Θ做極大似然估計,記為Θt+1

進一步,若我們不是取Z的概率分佈P(Z|Xt),則EM演算法的兩個步驟是:

  • E步(Expectation):以當前引數Θt推斷變數分佈P(Z|Xt),並計算對數似然LL(Θ|X,Z)關於Z的期望
8140224-d5159e93ca838e5b.png
  • M步(Maximization):尋找引數最大化期望似然,即
8140224-31d31b64eef51479.png

第十四章 概率圖模型

14.1 概率圖模型

推斷(inference):利用已知變數推測未知變數的分佈,其核心是如何基於可觀測變數推測出未知變數的條件分佈。
假定所關心的變數集合為Y,可觀測變數集合為O,其他變數的集合為R,“生成式”(generative)模型考慮聯合分佈P(Y,R,O),“判別式”(discriminative)模型考慮條件分佈P(Y,R|O).給定一組觀測變數值,推斷就是要由P(Y,R,O)或P(Y,R|O)得到條件概率分佈P(Y|O).
直接利用概率求和的方法消去變數R的複雜度是O(2|Y|+|R|)
概率圖模型(probabilistic graphical model)是一類用圖來表達變數相關關係的概率模型。結點表示隨機變數,邊表示變數之間的概率關係。有向圖稱為貝葉斯網(Bayesian network),無向圖稱為馬爾科夫網(Markov network)。
隱馬爾科夫模型(Hidden Markov Model,簡稱HMM)是結構最簡單的動態貝葉斯網(dynamic Bayesian network),這是一種著名的有向圖模型,主要用於時序資料建模。

8140224-066c3f20055f4a75.png

隱馬爾科夫模型中的變數可分為兩組:第一組狀態變數{y1,y2,...,yn},其中yi∈Y表示第i時刻的系統狀態。通常假定狀態變數是隱藏的,亦稱隱變數;第二組觀測變數{x1,x2,...,xn},其中xi∈X表示第i時刻的觀測值。在隱馬爾科夫模型中,系統通常在多個狀態{s1,s2,...,sN}之間轉換,因此狀態空間Y通常是離散的,而X可以是離散的也可以是連續的,為便於討論,我們僅考慮離散性觀測變數。
馬爾科夫鏈(Markov chain):系統下一時刻的狀態僅由當前狀態決定,不依賴於 以往的任何狀態。基於這種依賴關係,所有變數的聯合概率分佈為

8140224-f25b12759f2f2233.png
8140224-03fe2aa48ba7e77c.png
8140224-c7f1d781e54b6294.png
8140224-8af5618cb9d1776c.png

14.2 馬爾科夫隨機場

馬爾科夫隨機場(Markov Random Field,MRF)是典型的馬爾科夫網,結點表示變數,邊表示變數之間的依賴關係。
勢函式(potential functions)或因子(factor):定義在變數子集上的非負實函式,用於定義概率分佈函式。

8140224-53d3a205142f28b7.png

(clique):任意兩結點都有邊連線的節點子集。
極大團(maximal clique):在一個團中加入另外任何一個結點都不再形成團。
在馬爾科夫隨機場中,聯合概率分佈基於團分解成多個因子的乘積。對於n個變數x={x1,x2,...,xn},所有團構成的集合為C,與團Q∈C對應的變數集合記為xQ,則聯合概率P(x)定義為

8140224-9b6a04f5c4b2a2e0.png

其中,ψQ為與團Q對應的勢函式,用於對團Q中的變數關係進行建模,Z=ΣxΠQ∈CψQ(xQ)為規範化因子。在實際應用中,精確計算Z通常很困難,但是許多工並不需要Z的精確值。

8140224-3e2063b5feae759d.png

分離集:若從結點集A中的結點到B中的結點都必須經過結點集C中的結點,則稱結點集A和B被結點集C分離,C稱為“分類集”(separating set)。對馬爾科夫隨機場,有全域性馬爾科夫性:給定兩個變數子集的分離集,則這兩個變數子集條件獨立。

8140224-867cb64fa6249736.png

8140224-ba148ccf9e6ae9d9.png
8140224-ef9207974b2f1a2a.png

由全域性馬爾科夫性可得到兩個有用的推論:

  • 區域性馬爾科夫性(local Markov property):給定某變數的鄰接變數,則該變數條件獨立於其他變數。
  • 成對馬爾科夫性(pairwise Markov property):給定所有其他變數,兩個非鄰接變數條件獨立。
8140224-6c6446db33d3ceb0.png

14.3 條件隨機場

條件隨機場(Conditional Random Field,CRF)是一種判別式無向圖模型。生成式模型是對聯合分佈建模,而判別式則是對條件分佈建模。

8140224-52281bc60110ae6e.png

令G=<V,E>表示結點與標記變數y中元素一一對應的無向圖,yv表示與結點v對應的標記變數,n(v)表示結點v的鄰接結點,若圖G的每個變數yv都滿足馬爾科夫性,即

8140224-48657395deec7502.png

則(y,x)構成一個條件隨機場。

8140224-5c255058f5c77b51.png
8140224-47ba0cb59867f040.png
8140224-52f2a8d6999f57dc.png

14.4 學習與推斷

邊際分佈(marginal distribution):是指對無關變數求和或積分後得到的結果。
概率圖模型的推斷可分兩類:第一類式精確最短方法,但是計算複雜度大;第二類是近似推斷方法。

14.4.1 變數消去

8140224-52614020c9f76d9e.png

假定推斷目標是計算邊際概率P(x5).顯然,為了完成目標,秩序假髮消去其他變數:

8140224-617a3e31d0817835.png

若採用{x1,x2,x4x3}的順序計算加法,則有

8140224-b3ec38023262281c.png

其中,mij(xj)是求加過程的中間結果,下標i表示此項是對xi求加的結果,下表j表示此項中剩下的其他變數。

8140224-5754afb4067bce99.png

缺點:計算多個邊際分佈的時候造成大量冗餘計算。

14.4.2 信念傳播

信念傳播(Belief Propagation)演算法將變數消去法中的求和看作是訊息傳遞過程,較好的解決了重複計算問題。具體來說,變數消去發通過求和操作

8140224-880872d71b71a54b.png

消去變數xi,其中n(i)表示結點xi的鄰接結點。在信念傳播演算法中,這個操作被看作從xi向xj傳遞了一個訊息mij(xj).
8140224-c766ae660dce7e45.png

14.5 近似推斷

精確推斷方法通常需要很大的計算開銷,因此實際用近似推斷方法。
近似推斷方法可分兩大類:

  • 取樣:通過使用隨機化方法完成模擬。
  • 使用確定性近似完成近似推斷,典型代表是變分推斷。

14.5.1 MCMC取樣

8140224-73bfe65d11372fc6.png
8140224-490b7d6d15f7391a.png

馬爾科夫鏈的平穩狀態:假定平穩馬爾科夫鏈T的狀態轉移概率(即從狀態x轉移到狀態x'的概率)為T(x'|x),t時刻狀態的分佈p(xt),則若馬爾科夫鏈滿足平穩條件

8140224-c3b7de32d9f518a4.png

則p(x)是該馬爾科夫鏈的平穩分佈。

8140224-5667b2b8d7a61c47.png
8140224-6922a0e143037b76.png

14.5.2 變分推斷

8140224-ab9c2670a52b8ac5.png
8140224-272427239f022513.png

對式(14.30)使用EM演算法。

8140224-5f0cef76bc259d5e.png

14.6 話題模型

8140224-80610e2e39e5a2b2.png

8140224-64a41553614ab6c7.png

下一篇:《機器學習》西瓜書學習筆記(六)

相關文章