10_隱馬爾可夫模型

十八線碼農ing發表於2020-06-09

  今天是2020年3月13日星期五。不知不覺已經在家待了這麼多天了,從上一節EM演算法開始,數學推導越來越多,用mathtype碼公式真的是太漫長了。本來該筆記是打算把《統計學習方法》這本書做詳細的解讀,起初面對書裡大量的數學推導,感到非常恐懼。假期“空窗”時間不少,才有了細嚼慢嚥學習的機會。其實很大的原因是自己掌握的東西太少,知道的演算法太少,所以才對這本書恐懼。買了一直放著不願意學。現在到隱馬爾可夫模型,再有一章條件隨機場,監督學習部分就結束了。這一個月來,最大的收穫是知道了“怎麼學”。

  新的章節丟擲一個新的演算法模型,往往丈二和尚摸不著頭腦,什麼都是新的。越是拖延進度越慢,更不能一口吃個胖子指望看一遍就能懂。書讀百遍,其意自見,一遍不懂就再看一遍,一遍有一遍的收穫。但這個過程千萬不要盯著一本書看,一定要多找部落格,多看知乎、CSDN,保持審視的態度,保留自己的見解。另外,我是喜歡直接看文字,實在不懂了才去翻視訊看,覺得這種模式挺適合我。

  學到第十章,發現書中的很多東西,沒必要面面俱到,要適當的取捨和放過。因為畢竟這本書不是一次性消耗品,是值得深究和研習的。第一次不懂的東西,完全可以學習完所有章節,建立大的思維格局後,再重新考慮小細節。

  接下來的所有章節,從例子出發,引入各個概念;手寫推導過程;圖解演算法流程;最後實現程式碼。掰扯開來,其實也就是三個問題:該模型是什麼樣子的(考慮如何引入);該模型為什麼可以這樣做(考慮如何理解推導過程);該模型怎麼應用(考慮程式碼實現和應用場景)。


 GitHub:https://github.com/wangzycloud/statistical-learning-method


 隱馬爾科夫模型

引入

  隱馬爾科夫模型描述由隱藏的馬爾可夫鏈隨機生成觀測序列的過程,屬於生成模型。把這句話倒著思考一下:(1)該模型屬於生成模型,會不會類似EM演算法中考慮的,一個觀測資料y的生成,中間需要經過一個隱藏狀態z。(2)很明顯這裡生成的不是單個資料,而是單個資料構成的一個序列,並存在時序關係。(3)馬爾可夫鏈是什麼?在生成資料序列的過程中扮演什麼角色?

  先區分兩個概念,“狀態and觀測”。在我的理解裡,“狀態”也好,“觀測”也罷,不過是表達隨機變數的一個說法。狀態會有多個狀態,觀測會有多個觀測,但同時只允許一個狀態或者一個觀測出現。例如,現在有四個盒子(灰、黃、綠、藍),李華在五天內選盒子取球,規定每天只能取一個盒子(每個盒子被選的概率一樣大)。問,李華這五天可能會有多少種取盒子的序列,並問取到某種序列的概率是多少?如下:

  你知道的,這個組合數不小。因為每個盒子被選到的概率一樣大,所以每個序列出現的概率相同。李華每天在盒子裡取球(紅、白),現在限制每個盒子紅球、白球數目相同(紅、白球各有五個)。問,李華五天內取到球的顏色的序列有多少種,並問取到某種序列的概率是多少?

   顯然,這個組合數要小一些。因為每個盒子中紅白球數目相同,且此時盒子的選擇(狀態)對球的選取無影響,所以每個序列出現的概率相同。可是如果每個盒子中,紅白球的數量不是五五開,各不相同呢?李華五天內取球的某個序列的概率,就不再相同了。另外,除了受到盒子內紅白球的概率分佈影響,還要受到某天會抽到哪個盒子的概率分佈影響。

  在上述例子中,把可能取到的盒子情況,稱作“狀態”;把可能會取到的球的情況,稱作“觀測”。在隱馬爾科夫模型中,盒子會取到的各種狀態,我們是觀測不到的。而球的各種情況我們是知道的,可以被觀測到。

  取球要受到盒子所在狀態的影響,示意圖如下:

  此時,還不能叫做隱馬爾可夫模型的示例。需要繼續給“取盒子->取球->得到觀測序列”的過程施加限制條件。比如說,t時刻取到某個盒子,要受到t-1時刻盒子的狀態影響。一個簡單的例子,t-1時刻盒子是綠盒子,t時刻一定取灰色盒子,且t-1時刻取到綠盒子不對t+1、t+2、...、T時刻產生影響。具體一點,就是讓“當前時刻隱藏狀態”只受上一時刻“隱藏狀態”影響,且與所處的時刻t無關

  通過一步步施加的各個條件,此時可以稱作隱馬爾可夫模型的示例了。

隱馬爾科夫模型的基本概念

  先上例子,盒子和球模型。

  在這個例子中有兩個隨機序列,一個是盒子的序列(狀態序列),也就是每次選取到的盒子序列,這個過程是隱藏的,觀測不到從哪個盒子取球;一個是球的顏色序列(觀測序列),我們只能知道取出來的各個球的顏色。

  先分析一下取盒子環節,這是一個環環相扣的過程。從當前t-1時刻的盒子出發,考慮t時刻會取到哪個盒子,要符合規則。如當前盒子是1,根據上述規則,下一個盒子一定是盒子2。考慮t+2時刻會取到哪個盒子,要站在t+1時刻的盒子狀態上,決定取哪一個盒子。所謂的馬爾可夫性,很重要的一點,就是t-1時刻的狀態只決定t時刻的狀態(盒子1之後一定會取到盒子2),並不能決定t+1時刻狀態的取值(盒子1之後,決定不了盒子2之後會取哪個盒子)。

  再看一下取球環節,對應著描述中的從盒子中隨機取球的過程。每個盒子裡邊紅、白球的數目不同,不同的盒子取到紅色球的概率不同。當前盒子有屬於自己的概率分佈,取球的概率不盡相同。

  用數學語言完善完善以下過程:盒子可以構成一個集合;當前時刻的盒子如何確定下一個盒子,需要有狀態轉移概率;球可以夠成一個集合;從不同盒子裡邊取球,需要知道每個盒子的概率分佈;取了多少個球,需要有序列長度;最開始怎麼選第一個盒子。

  根據所給的條件,有以下:

  重點看一下狀態轉移矩陣。

  熟悉了這個例子,再來理解數學上的各個概念。

  這裡的狀態隨機序列就是每次取到盒子組成的序列,觀測序列就是球顏色的序列。隱馬爾科夫模型由狀態的初始概率分佈、狀態中間的轉移概率分佈以及觀測概率分佈組成。

  對應著看,Q就是例子中盒子的集合,V就是球顏色的集合,I是盒子序列,O是顏色序列。

  令A為狀態轉移矩陣:

  這裡的變數i有點混亂,注意區分。公式10.2中,(1)aij中的i是狀態轉移矩陣A中的第i行的意思,aij也就是矩陣A中的第i行第j個元素,該值表示從第i個元素轉移到第j個元素的概率;(2)it+1it中的i是指該狀態序列中的第t+1、第t個狀態,這裡i是序列的意思;(3)qi中的i是在狀態集合中取到哪個狀態的意思。

  t+1時刻能夠取到哪個狀態,要受到t時刻狀態的影響。也就是在t時刻狀態取某個值的條件下,t+1時刻才會有什麼樣的取值。矩陣A維度為N*N,也就是要知道該時刻每個狀態對下一時刻每個狀態的影響。

  觀測有M種,vk可以理解為觀測集合V中的第k個觀測。在盒子和球的例子中,可以看到每個觀測的取值,是由隱變數的狀態->哪個盒子決定的,並且只與當前的盒子有關係,每個盒子有各自取球的概率分佈。用概率符號表示就是公式10.4,表示在狀態為第j個盒子的情況下,觀測到vk的概率。

  用π來表示初始概率向量,也就是t=1序列起始時,根據一定的概率分佈選擇第一個盒子。

  在這裡,狀態轉移概率矩陣A與初始狀態概率向量π確定了隱藏的馬爾可夫鏈,可生成不可觀測的狀態序列。觀測概率矩陣B確定瞭如何從狀態生成觀測,與狀態序列綜合確定瞭如何產生觀測序列。

  從上述描述及定義10.1可以看到,隱馬爾科夫模型做了兩個基本假設:

  (1)再次回顧盒子和球模型,盒子的選擇是不是隻規定了時序上前後相鄰的盒子該怎麼選;而沒有第一次選盒子1,第三次一定會選到盒子3這樣的規定。也就是在任意時刻t的狀態只依賴於其前一時刻t-1的狀態,這就是馬爾科夫鏈“齊次”的重要性質。

  (2)觀測獨立性假設是指我們觀測到的每一次現象(紅球、白球),只與該球所在盒子的概率分佈有關,與其它盒子的概率分佈沒有一點關係!與其它時刻的觀測沒有一點關係!

  觀測序列的生成過程可以由演算法10.1描述。

   HMM和CRF,與之前學習的各個模型,差別是比較大的,學習思路是要換一換。理解了隱馬爾科夫模型的基本概念,下一步就是要考慮該模型可以做什麼?怎麼做?這裡我接觸的不多,只能順著書本的思路,學習隱馬爾可夫模型的三個基本問題。

  1)概率計算問題。很自然的,考慮一下某個觀測序列O出現的概率P(O|λ)

  2)學習問題。已知觀測序列,用極大似然估計的方法估計模型引數λ=(A,B,π)

  3)預測問題,也稱解碼問題。知道模型引數,給定觀測序列,求最有可能的對應的狀態序列。

概率計算演算法

1)直接計算

  已知模型引數λ=(A,B,π)和觀測序列O=(o1,o2,...,oT),計算觀測序列O出現的概率P(O|λ)。很容易想到,可以按照概率公式直接進行計算。把得到觀測資料的過程,想象成兩個階段:選取狀態和生成觀測。第一步得到狀態序列,第二步得到觀測序列,可以應用乘法原理。不同的觀測序列可以得到不同的觀測序列,可以應用加法原理。類似於全概率公式,通過列舉所有可能的狀態序列I,求各個狀態序列I上生成觀測O的概率(也就是I,O的聯合概率),然後對所有可能的狀態序列求和,得到P(O|λ)

  容易理解,公式(10.10)為全部狀態序列中某個狀態序列I的概率計算公式;公式(10.11)為在該狀態序列I條件下,觀測序列為O時的條件概率計算方法;公式(10.12)為聯合概率公式;公式(10.13)對所有可能的狀態I求和,也就是求O的邊緣概率(考慮在I出現的所有情況條件下,O出現的概率)。簡單分析下,若狀態數目為N,一共有T個狀態序列,所以狀態序列的可能性為NT。每一種狀態序列都要相應乘T個觀測概率,所以最後的時間複雜度為O(TNT)。用這種方法計算觀測序列O出現的概率,是非常低效的。接下來介紹高效的計算方式,前向-後向演算法。

2)前向演算法

  先來看一個新概念“前向概率”:

  放在示意圖上如藍色虛線框α3(i)=P(o1,o2,o3,it=qi|λ),可以從聯合概率的角度理解。具體為 αt=3(灰色盒子)=P(o1=紅球,o2=白球,o3=紅球,it=3=灰色盒子|λ)

  在前向概率的基礎上,定義前向演算法為:

  步驟(1),計算初值。注意這裡α1(i)應用向量來表示,在t=1,觀測取到o1時,各個隱藏狀態i都有到達o1的概率。計算分兩步,從初始概率πi到隱狀態qi,再從qi經發射矩陣到觀測o1,需要對每個隱藏狀態i計算。

  步驟(2),前向演算法遞推公式。αt(i)遞推到αt+1(i),公式(10.16)中的bi(ot+1)可以理解為下圖第二步,由所在的狀態qi經發射矩陣得到觀測ot+1aji可以理解為下圖中的第一步,也就是由t時刻狀態qj經轉移矩陣在t+1時刻狀態為qi的過程。

  公式(10.16)中的求和符號,實際上反映的是t+1時刻取qi時,其實t時刻的任何一個狀態都可以轉移到qi,因此要把t時刻的每種狀態都考慮到。

  步驟(3),終止。公式(10.17)的求和符號挺好理解的,因為,對iT=qi求和,實際上相當於求觀測序列O的邊緣概率。

  再來看一下書中的詳細解釋:

   通過畫圖,是不是要好理解一些~前向演算法高效就高效在利用先前的區域性計算結果,通過路徑結構將區域性結果“遞推”到全域性。

  看一下例10.2,基本上就可以理解這個計算過程了。

3)後向演算法

  相應的,後向演算法先了解“後向概率”這個概念。

   放在示意圖上,如綠色虛線框β2(i)=P(o3,...,oT-1,oT,it=qi|λ),可從條件概率的角度理解。具體為βt=2(綠色盒子)=P(o3=紅球,oT-1=紅,oT=紅球|it=2=綠色盒子,λ)

    在後向概率的基礎上,定義後向演算法為:

  步驟(1),初始化後向概率。這裡將最終時刻的所有狀態qi規定為βT(i)=1以下示意圖簡單分析。

  這就好像是βt(i)=P(ot+1,ot+2,…,oT|it=qi, λ)變成了βt(i)=P(it=qi, λ),此時對於it的所有取值,it=qi,是一個不爭的事實。

  步驟(2),後向演算法遞推公式。這裡的遞推方向是反向由T+1遞推到T,圖示如下:

  這裡由T+1遞推到T,仍然需要①②兩處的連線。①是公式(10.20)中的aij,②是公式(10.20)中的bj(ot+1)。求和符號是t時刻qi到t+1時刻qj所有情況的彙總。取(qi=灰色盒子,ot+1=白球)進行分析:

   T+1遞推到T,我覺得圖畫的應該差不多了...①②部分是怎樣起到連線作用的...大概就是上圖這樣吧...我解釋不出來...當然了,知乎也好CSDN也好,有詳細推導公式,我就不班門弄斧了。書面解釋如下:

  於是,利用前向概率和後向概率的定義,可以將觀測序列概率P(O|λ)同一寫成:

  示意圖好像是這個樣子:

  公式(10.22)中,先來看前向概率的求和部分,i=1時,αt(1)是t時刻盒子為灰盒子,觀測序列為(o1,o2,...ot,it=q1)的概率;相應的,αt(2)是t時刻盒子為黃盒子,觀測序列為(o1,o2,...ot,it=q2)的概率;αt(3)是t時刻盒子為綠盒子,觀測序列為(o1,o2,...ot,it=q3)的概率;αt(4)是t時刻盒子為藍盒子,觀測序列為(o1,o2,...ot,it=q4)的概率。那麼求和自然就代表著,不考慮盒子的影響,觀測序列為(o1,o2,...ot)的邊緣概率。對應示意圖,也就是消除了t時刻狀態的影響。

  同理,後向概率的求和部分,在示意圖中相當於消除了t+1時刻狀態的影響。①對應著公式(10.22)中的aij,建立連線。②對應著公式(10.22)中的bj(ot+1),將ot+1時刻的觀測計入統計。

4)一些概率與期望值的計算

  利用前向概率和後向概率,可以得到關於單個狀態和兩個狀態概率的計算公式。頭幾遍看這幾個公式的時候,丈二和尚摸不著頭腦,不知道這幾個概率計算有什麼用,就沒怎麼好好看。編寫這部分程式碼的時候,發現這幾個公式挺重要的。在學習演算法小結,對估計模型引數非常有用。公式介紹的挺具體的,這裡就不在畫圖了...學習的時候隨手畫畫圖,就能理解了~

  1)求單個狀態的條件概率:

  還是畫吧,這裡γt(i)反映是在給定觀測序列O條件下,t時刻處於狀態qi的概率。如下圖,γt(i=灰色盒子)

  2)求兩個連續狀態的條件概率:

   如下圖所示ξt(i,j)反映的是,在給定觀測序列O的條件下,t時刻狀態為灰色盒子、t+1時刻狀態為綠色盒子的條件概率。

  3)一些有用的期望,在學習演算法小節可以看到用處:

學習演算法

  書中提到,我們進行隱馬爾可夫模型的學習,也就是對模型引數進行估計。根據訓練資料是包括觀測序列和對應的狀態序列,還是隻有觀測序列,可以分別由監督學習和無監督學習實現,這裡監督學習方法實際上就是利用極大似然估計。

  1)監督學習方法。書中直接給出了引數估計公式,這裡簡單摘抄下~

   2)無監督學習方法。顧名思義,無監督方法也就是隻有觀測序列,進行引數估計的方法。由於監督學習需要使用標註的訓練資料,而人工標註訓練資料往往代價很高。因此有時候就會利用無監督學習的方法。我們可以將觀測序列資料看作EM演算法中的不完全資料,狀態序列資料看作EM演算法中不可觀測的隱資料,那麼隱馬爾可夫模型就可以看作是含有隱變數的概率模型。於是,可以通過EM演算法求解。

  詳細過程如下:

  1.確定完全資料的對數似然函式

  2.EM演算法的E步:求Q函式Q(λ,λ^)

  3.EM演算法的M步:極大化Q函式Q(λ,λ^)求模型引數A,B,π

  書本上有詳細的推導公式,看懂了2/3,先不摘抄了。有空了把理解了的整理上來,引數估計公式如下:

  於是,有以下Baum-Welch演算法,從這裡可以發現一些期望的用處:

預測演算法  

  預測演算法,也就是根據已知的觀測序列,找到概率最大的狀態序列(最有可能的對應的狀態序列)。

  應用維特比演算法,相當於有向無環圖求最短路徑,網上有大量詳細的資料,暫不整理了~

相關文章