維特比演算法和隱馬爾可夫模型的解碼

歸去_來兮發表於2021-10-28

原文網址 : https://www.cnblogs.com/flyup/p/15478027.html

一、概述

維特比演算法是安德魯.維特比(Andrew Viterbi)於1967年為解決通訊領域中的解碼問題而提出的，它同樣廣泛用於解決自然語言處理中的解碼問題，隱馬爾可夫模型的解碼是其中典型的代表。無論是通訊中的解碼問題還是自然語言處理中的解碼問題，本質上都是要在一個籬笆網路中尋找得到一條最優路徑。
所謂籬笆網路，指的是單向無環圖，呈層級連線，各層節點數可以不同。如圖是一個籬笆網路，連線上的數字是節點間概念上的距離（如間距、代價、概率等），現要找到一條從起始點到終點的最優路徑。

在實際問題中，節點數和層數往往是大量的，因而採取遍歷所有的路徑計算其距離進行比較的方式是不可行的。維特比演算法正是通過動態規劃的方式高效求得這條最優路徑。

二、維特比演算法

1.演算法原理

該問題具有這樣一個特性，對於最優（如最短距離）的路徑，任意一段子路徑一定是該段兩端點間所有可達路徑中最優的，如若不然，將該段中更優的子路徑接到兩端點便構成了另一個整體最優路徑，這是矛盾的。或者說，最優路徑中，從起始點到由近及遠的任一點的子路徑，一定是該段所有可達路徑中最優的。也即，整體最優，區域性一定最優。

該特性也就是說，對每個節點而言，如果最優路徑經過這一點，則一定是經過從起始點到這點的這段最優路徑。那麼，只要從頭開始，由區域性向整體推進，漸次地找到起始點到當前點的最優路徑，算至終點便得到了整體最優路徑。這樣的方式叫做動態規劃，是維特比演算法的基本思想。
維特比演算法求解籬笆網路最短路徑的過程為：
從第一層開始，對每一層的每一個節點，計算出起始點到它的最短距離，並記錄下相應最短路徑下它的前一個節點，逐層遞推，算至終止點時便得到了整體最短距離，再依照節點記錄下的前置節點進行回溯，就得到了最短路徑的序列。對第$i$層第$j$個節點$P_{i,j}$，假設起始點到它的最短距離為$D\left( P_{i,j} \right)$，相應最短路徑下它的前一個節點為$Pre\left( P_{i,j} \right)$，則

\[D\left( P_{i,j} \right)=\min_{1\leq k \leq N}{\left[ D_{i-1,k}+d(P_{i-1,k},P_{i,j}) \right]} \]

也就是，對前一層的所有節點，計算每一個節點的記錄的最短距離D與它到當前節點的距離d的和，取其中最小的那個值（其中， $d(A,B)$表示A,B兩節點間的距離。）.

\[Pre\left( P_{i,j} \right)=P_{i-1,j\ast}=arg\min_{1\leq k \leq N}{\left[ D_{i-1,k}+d(P_{i-1,k},P_{i,j}) \right]} \]

也就是，滿足距離最短的那條路徑上在前一層的節點.

2.示例

在如下網路中，連線上的數字是節點間的距離，求S點到E點的最短距離和與之對應的路徑。

第一層：
對節點$P_{1,1}$，
起始點到它只有一條路徑，最短距離$D(P_{1,1})=2$，前一個節點$Pre(P_{1,1}) = S$；

對節點$P_{1,2}$，
起始點到它只有一條路徑，最短距離 $D(P_{1,2}) = 1$，前一個節點$Pre(P_{1,2}) = S$；

對節點$P_{1,3}$，
起始點到它只有一條路徑，最短距離$D(P_{1,3}) = 3$，前一個節點$Pre(P_{1,3}) = S$ 。

第二層：
對節點 $P_{2,1}$，
$D(P_{1,1}) + d(P_{1,1}，P_{2,1}) = 2 + 3 = 5$，
$D(P_{1,2}) + d(P_{1,2}，P_{2,1}) = 1 + 2 = 3$ ，
$D(P_{1,3}) + d(P_{1,3}，P_{2,1}) = 3 + 9 = 12$，
最短距離 $D(P_{2,1}) = min\left\{ 5,3,12 \right\} = 3$，前一個節點$Pre(P_{2,1}) = P_{1,2}$ ;

對節點$P_{2,2}$ ，
$D(P_{1,1}) + d(P_{1,1}，P_{2,2}) = 2 + 6 = 8$，
$D(P_{1,2}) + d(P_{1,2}，P_{2,2}) = 1 + 5 = 6$，
$D(P_{1,3}) + d(P_{1,3}，P_{2,2}) = 3 + 2 = 5$，
最短距離$D(P_{2,2}) = min\left\{ 8,6,5 \right\} = 5$，前一個節點$Pre(P_{2,2}) = P_{1,3}$ ;

對節點$P_{2,3}$，
$D(P_{1,1}) + d(P_{1,1}，P_{2,3}) = 2 + 4 = 6$ ，
$D(P_{1,2}) + d(P_{1,2}，P_{2,3}) = 1 + 7 = 8$，
$D(P_{1,3}) + d(P_{1,3}，P_{2,3}) = 3 + 6 = 9$ ，
最短距離$D(P_{2,3}) = min\left\{ 6,8,9 \right\} = 6$，前一個節點$Pre(P_{2,3}) = P_{1,1}$ ;

第三層：
對節點 $P_{3,1}$，
$D(P_{2,1}) + d(P_{2,1}，P_{3,1}) = 3 + 9 = 12$，
$D(P_{2,2}) + d(P_{2,2}，P_{3,1}) = 5 + 2 = 7$，
$D(P_{2,3}) + d(P_{2,3}，P_{3,1}) = 6 + 6 = 12$，
最短距離$D(P_{3,1}) = min\left\{ 12,7,12 \right\} = 7$，前一個節點$Pre(P_{3,1}) = P_{2,2}$;

對節點$P_{3,2}$，
$D(P_{2,1}) + d(P_{2,1}，P_{3,2}) = 3 + 3 = 6$，
$D(P_{2,2}) + d(P_{2,2}，P_{3,2}) = 5 + 6 = 11$，
$D(P_{2,3}) + d(P_{2,3}，P_{3,2}) = 6 + 3 = 9$，
最短距離$D(P_{3,2}) = min\left\{ 6,11,9 \right\} = 6$，前一個節點$Pre(P_{3,2}) = P_{2,1}$;

對節點$P_{3,3}$，
$D(P_{2,1}) + d(P_{2,1}，P_{3,3}) = 3 + 8 = 11$，
$D(P_{2,2}) + d(P_{2,2}，P_{3,3}) = 5 + 7 = 12$，
$D(P_{2,3}) + d(P_{2,3}，P_{3,3}) = 6 + 4 = 10$，
最短距離$D(P_{3,3}) = min\left\{ 11,12,10 \right\} = 10$，前一個節點$Pre(P_{3,3}) = P_{2,3}$;

第四層（終點）：
對節點 $E$，
$D(P_{3,1}) + d(P_{3,1}，E) = 7 + 3 = 10$，
$D(P_{3,2}) + d(P_{3,2}，E) = 6 + 7 = 13$，
$D(P_{3,3}) + d(P_{3,3}，E) = 10 + 6 = 16$，
最短距離$D(E) = min\left\{ 10,13,16 \right\} = 10$，前一個節點$Pre(E) = P_{3,1}$;

又$Pre(E) = P_{3,1}$，$Pre(P_{3,1}) = P_{2,2}$，$Pre(P_{2,2}) = P_{1,3}$，$Pre(P_{1,3}) = S$
故最短距離為10，與之對應的路徑為（$S$，$P_{1,3}$，$P_{2,2}$，$P_{3,1}$，$E$）.

三、隱馬爾可夫模型的解碼

1.問題描述

隱馬爾可夫模型（HMM）的解碼問題指，給定模型和輸出序列，如何找出最有可能產生這個輸出的狀態序列。自然語言處理中，也即如何通過觀測訊號確定最有可能對應的實際語義。在狀態序列上，每個狀態位是狀態集合中的元素之一，因此該問題等價於在狀態集合中的節點構成的有向網路（籬笆網路）中找出一條概率最大的路徑（最優路徑），如圖。該問題可以通過維特比演算法得到高效的解決。

2.演算法敘述

假設 $P(s_{t,j})$表示從起始時刻到$s_{t,j}$的最優路徑的概率，$Pre(s_{t,j})$表示從起始時刻到 $s_{t,j}$的最優路徑上前一個節點，則隱馬爾可夫模型的維特比解碼演算法為：

輸入：隱馬爾可夫模型 $\lambda=(\pi,A,B)$和觀測 $O=(o_1,o_2,...,o_T)$；
輸出：最優狀態序列$S^{\ast}=(s_{1}^{\ast},s_{2}^{\ast},...,s_{T}^{\ast})$.
(1)初始化
$P(s_{1,j})=\pi_{j}b_{j}(o_1)$，
$Pre(s_{1,j})=None$，$j=1,2,...,N$

(2)遞推
對 $t=2,3,...,T$

\[P(s_{t,j})=\max_{1\leq k \leq N}{\left[ P(s_{t-1,k})a_{kj} \right]b_{j}(o_t)} \]

\[Pre(s_{t,j})=arg\max_{1\leq k \leq N}{\left[ P(s_{t-1,k})a_{kj} \right]} \]

，$j=1,2,...,N$.

(3)遞推終止
最大概率$$P^{\ast}=\max_{1\leq j \leq N}{P(s_{T,j})}$$
最優路徑上的最後一個狀態$$s_{T}^{\ast}=arg\max_{1\leq j \leq N}{\left[ P(s_{T,j}) \right]}$$

(4)回溯路徑，確定最優狀態序列
$S^{\ast}=\left( s_{1}^{\ast},s_{2}^{\ast},...,s_{T-1}^{\ast},s_{T}^{\ast} \right)$
$=\left( Pre(s_{2}^{\ast}),Pre(s_{3}^{\ast}), ...,Pre(s_{T}^{\ast}),s_{T}^{\ast}\right)$

3.示例

（參考自《統計學習方法》）
狀態集合 $Q=\left\{ q_1, q_2, q_3 \right\}$，觀測集合$V=\left\{ 0,1 \right\}$，模型 $\lambda=\left( \pi,A,B \right)$ ，

$A=\begin{bmatrix} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5 \\ \end{bmatrix}$ , $B=\begin{bmatrix} 0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3 \end{bmatrix}$,$\pi=\left( 0.2, 0.4, 0.4 \right)^{T}$

已知觀測序列$O=\left( 0, 1, 0 \right)$，求最優狀態序列。

解：
(1)在t=1時（初始化），對每一個狀態，求觀測為0的最大概率
$P(s_{1,1})=0.2\times0.5=0.1$，$Pre(s_{1,1})=None$
$P(s_{1,2})=0.4\times0.4=0.16$，$Pre(s_{1,2})=None$
$P(s_{1,3})=0.4\times0.7=0.28$，$Pre(s_{1,3})=None$

(2)在t=2時，對每一個狀態，求觀測為1的
最大概率$$P(s_{2,j})=\max_{1 \leq k \leq 3}{\left[ P(s_{1,k})a_{kj} \right]b_{j}(1)}$$
當前最優的前一個狀態$$Pre(s_{2,j})=arg\max_{1 \leq k \leq 3}{\left[ P(s_{1,k})a_{kj} \right]}$$，$j=1,2,3.$
$P(s_{2,1})=max\left\{ 0.1\times0.5\times0.5, 0.16\times0.3\times0.5, 0.28\times0.2\times0.5 \right\}$$=0.028$

$Pre(s_{2,1})=s_{1,3}=q_3$

$P(s_{2,2})=max\left\{ 0.1\times0.2\times0.6,0.16\times0.5\times0.6,0.28\times0.3\times0.6 \right\}$$=0.0504$

$Pre(s_{2,2})=s_{1,3}=q_3$

$P(s_{2,3})=max\left\{ 0.1\times0.3\times0.3, 0.16\times0.2\times0.3,0.28\times0.5\times0.3 \right\}$$=0.042$

$Pre(s_{2,3})=s_{1,3}=q_3$

(3)在t=3時，對每一個狀態，求觀測為0的
最大概率 $$P(s_{3,j})=\max_{1 \leq k \leq 3}{\left[ P(s_{2,k})a_{kj} \right]b_{j}(0)}$$
當前最優的前一個狀態$$Pre(s_{3,j})=arg\max_{1 \leq k \leq 3}\left[ P(s_{2,k})a_{kj} \right]$$，$j=1,2,3.$

$P(s_{3,1})=max\left\{ 0.028\times0.5\times0.5, 0.0504\times0.3\times0.5,0.042\times0.2\times0.5 \right\}$$=0.00756$

$Pre(s_{3,1})=s_{2,2}=q_2$

$P(s_{3,2})=max\left\{ 0.028\times0.2\times0.4, 0.0504\times0.5\times0.4, 0.042\times0.3\times0.4 \right\}$$=0.01008$

$Pre(s_{3,2})=s_{2,2}=q_2$

$P(s_{3,3})=max\left\{ 0.028\times0.3\times0.7,0.0504\times0.2\times0.7,0.042\times0.5\times0.7 \right\}$$=0.0147$

$Pre(s_{3,3})=s_{2,3}=q_3$

(4)得到結果.
最大概率
$P^{\ast}=\max_{1 \leq j \leq 3}P\left( s_{3,j} \right)$
$=max\left\{ 0.00756,0.01008,0.0147 \right\}$
$=0.0147$
最優狀態序列
$S^{\ast}=\left( Pre(s_{2}^{\ast})t,Pre(s_{3}^{\ast}),s_{3}^{\ast} \right)$
$=\left( s_{1,3},s_{2,3},s_{3,3} \right)$
$=\left( q_3,q_3,q_3 \right)$

4.python實現

對上述HMM解碼示例的python實現程式為

import numpy as np

def viterbi(pi, A, B, Q, V, obs_seq):
    '''
    :param pi:HMM初始狀態概率向量，list型別
    :param A:HMM狀態轉移概率矩陣，list型別
    :param B:HMM觀測生成概率矩陣，list型別
    :param Q:狀態集合，list型別
    :param V:觀測集合，list型別
    :param obs_seq:觀測序列，list型別
    :return:最優狀態序列的概率sta_pro，float型別；最優狀態序列sta_seq，list型別
    '''

    # HMM模型引數轉換為array型別
    pi = np.array(pi)
    A = np.array(A)
    B = np.array(B)

    # 1.定義動態計算結果儲存矩陣
    rowNum = len(Q)  # 行數，狀態數
    colNum = len(obs_seq)  # 列數，生成的觀測數，即時刻數

    # 儲存節點當前最大概率的矩陣
    probaMatrix = np.zeros((rowNum,colNum))

    # 儲存當前最優路徑下的前一個節點的矩陣
    preNodeMatrix = np.zeros((rowNum,colNum))

    # 2.初始化（第1時刻）
    probaMatrix[:,0] = pi*np.transpose(B[:,obs_seq[0]])
    preNodeMatrix[:,0] = [-1]*rowNum  # 第1時刻節點的前一個節點不存在，置為-1

    # 3.遞推，第2時刻至最後
    for t in range(1, colNum):
        list_pre_max_proba = []  # 節點最大前置概率列表
        list_pre_node = []  # 節點當前最優路徑中前一個節點列表
        for j in range(rowNum):
            pre_proba_list = list(np.array(probaMatrix[:,t-1])*np.transpose(A[:,j]))  # 前置概率列表，前一時刻的節點最大概率與到當前節點轉移概率的乘積
            '''
            注：因為計算機的二進位制機制對小數的表達是有限的，所以對小數作運算將產生一定的誤差。
            在使用函式獲取pre_proba_list中的最大值和對應的索引時，為有效降低這種誤差，將資料放大後再進行操作。
            '''
            pre_proba_list = [x*pow(10,5) for x in pre_proba_list]  # 放大100000倍
            prePro = max(pre_proba_list)/pow(10,5)  # 最大前置概率
            preNodeIndexNum = pre_proba_list.index(max(pre_proba_list))  # 前置節點的索引號
            list_pre_max_proba.append(prePro)  # 最大前置概率加入列表
            list_pre_node.append(preNodeIndexNum)  # 前置節點的索引號加入列表

        probaMatrix[:,t] = np.array(list_pre_max_proba)*np.transpose(B[:,obs_seq[t]])  # 最大前置概率乘上觀測概率，即為當前最大概率
        preNodeMatrix[:,t] = list_pre_node  # 將該列前置節點索引號加入矩陣

    # 此時，得到了完整的probaMatrix和preNodeMatrix，對這兩個矩陣進行操作便可得到需要的結果
    # 4.得到最大概率
    maxPro = np.max(probaMatrix[:, colNum-1])  # 全域性最大概率（即最後一列的最大值）

    # 5.得到最優狀態序列的狀態索引號列表
    lastStateIndexNum = np.argmax(probaMatrix[:, colNum-1])  # 最優狀態序列中最後一個狀態的索引號
    stateIndexList = []  # 定義最優狀態的索引號列表
    stateIndexList.append(lastStateIndexNum)

    # 回溯，完成狀態索引號列表
    currentIndex = lastStateIndexNum;
    for t in range(colNum-1, 0, -1):
        fls = preNodeMatrix[:, t].tolist()  # 矩陣中的數值是浮點型
        ls = list(map(int, fls))  # 轉為整型
        currentIndex = ls[currentIndex]
        stateIndexList.append(currentIndex)

    stateIndexList.reverse()  # 反轉列表

    # 6.由索引號序列得到最優狀態序列
    stateSeq = [Q[i] for i in stateIndexList]

    return maxPro,stateSeq

if __name__=='__main__':
    # 狀態集合
    Q = ["q1", "q2", "q3"]

    # 觀測集合
    V = [0, 1]

    # 初始狀態概率向量
    pi = [0.2, 0.4, 0.4]

    # 狀態轉移概率矩陣
    A = [[0.5, 0.2, 0.3],
         [0.3, 0.5, 0.2],
         [0.2, 0.3, 0.5]]

    # 觀測概率矩陣
    B = [[0.5, 0.5],
         [0.4, 0.6],
         [0.7, 0.3]]

    # 觀測序列
    obs_seq = [0, 1, 0]

    maxPro, stateSeq = viterbi(pi, A, B, Q, V, obs_seq)

    print("最大概率為：", maxPro)
    print("最優狀態序列為：", stateSeq)

End.

參考

吳軍. 數學之美(第二版). 人民郵電出版社.
李航. 統計學習方法. 清華大學出版社.
https://www.cnblogs.com/zhibei/p/9391014.html

隱馬爾可夫模型詳解
2020-08-10
隱馬爾可夫模型
隱馬爾可夫模型(HMM)詳解
2019-02-21
隱馬爾可夫模型HMM
ML-隱馬爾可夫模型
2019-03-27
隱馬爾可夫模型
10_隱馬爾可夫模型
2020-06-09
隱馬爾可夫模型
隱馬爾可夫模型 | 賽爾筆記
2019-04-19
隱馬爾可夫模型筆記
用簡單易懂的例子解釋隱馬爾可夫模型
2020-10-24
隱馬爾可夫模型
機器學習之隱馬爾可夫模型
2019-07-26
機器學習隱馬爾可夫模型
HMM隱馬爾可夫模型來龍去脈（二）
2020-09-01
HMM隱馬爾可夫模型
NLP-隱馬爾可夫模型及使用例項
2018-04-09
隱馬爾可夫模型
CVPR 2021 | 時間序列疾病預測的因果隱馬爾可夫模型
2022-07-18
隱馬爾可夫模型
域結構進化的馬爾可夫模型
2024-07-03
馬爾可夫模型
AI產品經理必修：揭開演算法的面紗（隱含馬爾可夫）
2020-05-27
AI演算法馬爾可夫
2022-05-17-馬爾科夫鏈之傳統馬爾可夫鏈
2024-05-22
馬爾科夫馬爾可夫
中文分詞的探索，CRF（條件隨機場）和HMM（隱馬爾可夫模型）用於分詞的對比，以及中文分詞的評估
2018-11-10
中文分詞CRF條件隨機場HMM隱馬爾可夫模型
[work] 一階二階馬爾可夫
2019-01-17
馬爾可夫
理解馬爾可夫決策過程
2019-01-28
馬爾可夫
【機器學習】--隱含馬爾科夫模型從初識到應用
2018-04-09
機器學習馬爾科夫模型
在 Swift 中使用馬爾可夫鏈生成文字
2019-02-26
Swift馬爾可夫
「馬爾可夫決策過程」學習筆記
2024-03-04
馬爾可夫筆記
[譯] 用 Python 實現馬爾可夫鏈的初級教程
2019-03-03
Python馬爾可夫
馬爾可夫鏈是個什麼鬼？圖文詳解告訴你！
2019-03-06
馬爾可夫
馬爾可夫鏈你知道多少？Python視覺化解析MCMC
2019-10-15
馬爾可夫Python視覺化
R資料分析：縱向分類結局的分析-馬爾可夫多型模型的理解與實操
2022-03-25
馬爾可夫多型模型
馬爾科夫鏈的穩態分佈
2024-06-23
馬爾科夫
一個馬爾科夫鏈例項
2018-07-28
馬爾科夫
今天是霧霾，明天是什麼？馬爾可夫鏈告訴你
2018-03-13
馬爾可夫
馬爾科夫鏈隨機文字生成器
2018-12-30
馬爾科夫隨機
2022-05-21-空間馬爾科夫鏈工具
2024-05-22
馬爾科夫
【火爐煉AI】機器學習045-對股票資料進行隱馬爾科夫建模
2018-10-19
AI機器學習馬爾科夫
HMM-維特比演算法理解與實現（python）
2020-05-13
HMM維特比演算法Python
最簡單的隨機過程——馬爾科夫鏈的Python分析
2024-06-15
隨機馬爾科夫Python
13張動圖助你徹底看懂馬爾科夫鏈、PCA和條件概率！
2018-09-09
馬爾科夫PCA
亂彈馬斯克與比爾蓋茲兩位首富的不同思維模式
2021-04-18
馬斯克模式
Part 1.2 基於維特比演算法來優化上述流程
2020-12-19
維特比演算法優化
《什麼是高爾夫？》：萬物皆可高爾夫的瘋狂遊戲
2019-11-29
遊戲
強化學習（二）馬爾科夫決策過程(MDP)
2018-08-05
強化學習馬爾科夫
高爾夫禮儀
2018-05-25
強化學習組隊學習task02——馬爾可夫決策過程及表格型方法
2020-10-23
強化學習馬爾可夫