一、概述
維特比演算法是安德魯.維特比(Andrew Viterbi)於1967年為解決通訊領域中的解碼問題而提出的,它同樣廣泛用於解決自然語言處理中的解碼問題,隱馬爾可夫模型的解碼是其中典型的代表。無論是通訊中的解碼問題還是自然語言處理中的解碼問題,本質上都是要在一個籬笆網路中尋找得到一條最優路徑。
所謂籬笆網路,指的是單向無環圖,呈層級連線,各層節點數可以不同。如圖是一個籬笆網路,連線上的數字是節點間概念上的距離(如間距、代價、概率等),現要找到一條從起始點到終點的最優路徑。
在實際問題中,節點數和層數往往是大量的,因而採取遍歷所有的路徑計算其距離進行比較的方式是不可行的。維特比演算法正是通過動態規劃的方式高效求得這條最優路徑。
二、維特比演算法
1.演算法原理
該問題具有這樣一個特性,對於最優(如最短距離)的路徑,任意一段子路徑一定是該段兩端點間所有可達路徑中最優的,如若不然,將該段中更優的子路徑接到兩端點便構成了另一個整體最優路徑,這是矛盾的。或者說,最優路徑中,從起始點到由近及遠的任一點的子路徑,一定是該段所有可達路徑中最優的。也即,整體最優,區域性一定最優。
該特性也就是說,對每個節點而言,如果最優路徑經過這一點,則一定是經過從起始點到這點的這段最優路徑。那麼,只要從頭開始,由區域性向整體推進,漸次地找到起始點到當前點的最優路徑,算至終點便得到了整體最優路徑。這樣的方式叫做動態規劃,是維特比演算法的基本思想。
維特比演算法求解籬笆網路最短路徑的過程為:
從第一層開始,對每一層的每一個節點,計算出起始點到它的最短距離,並記錄下相應最短路徑下它的前一個節點,逐層遞推,算至終止點時便得到了整體最短距離,再依照節點記錄下的前置節點進行回溯,就得到了最短路徑的序列。對第\(i\)層第\(j\)個節點\(P_{i,j}\),假設起始點到它的最短距離為\(D\left( P_{i,j} \right)\),相應最短路徑下它的前一個節點為\(Pre\left( P_{i,j} \right)\),則
也就是,對前一層的所有節點,計算每一個節點的記錄的最短距離D與它到當前節點的距離d的和,取其中最小的那個值(其中, \(d(A,B)\)表示A,B兩節點間的距離。).
也就是,滿足距離最短的那條路徑上在前一層的節點.
2.示例
在如下網路中,連線上的數字是節點間的距離,求S點到E點的最短距離和與之對應的路徑。
第一層:
對節點\(P_{1,1}\),
起始點到它只有一條路徑,最短距離\(D(P_{1,1})=2\),前一個節點\(Pre(P_{1,1}) = S\);
對節點\(P_{1,2}\),
起始點到它只有一條路徑,最短距離 \(D(P_{1,2}) = 1\),前一個節點\(Pre(P_{1,2}) = S\);
對節點\(P_{1,3}\),
起始點到它只有一條路徑,最短距離\(D(P_{1,3}) = 3\),前一個節點\(Pre(P_{1,3}) = S\) 。
第二層:
對節點 \(P_{2,1}\),
\(D(P_{1,1}) + d(P_{1,1},P_{2,1}) = 2 + 3 = 5\),
\(D(P_{1,2}) + d(P_{1,2},P_{2,1}) = 1 + 2 = 3\) ,
\(D(P_{1,3}) + d(P_{1,3},P_{2,1}) = 3 + 9 = 12\),
最短距離 \(D(P_{2,1}) = min\left\{ 5,3,12 \right\} = 3\),前一個節點\(Pre(P_{2,1}) = P_{1,2}\) ;
對節點\(P_{2,2}\) ,
\(D(P_{1,1}) + d(P_{1,1},P_{2,2}) = 2 + 6 = 8\),
\(D(P_{1,2}) + d(P_{1,2},P_{2,2}) = 1 + 5 = 6\),
\(D(P_{1,3}) + d(P_{1,3},P_{2,2}) = 3 + 2 = 5\),
最短距離\(D(P_{2,2}) = min\left\{ 8,6,5 \right\} = 5\),前一個節點\(Pre(P_{2,2}) = P_{1,3}\) ;
對節點\(P_{2,3}\),
\(D(P_{1,1}) + d(P_{1,1},P_{2,3}) = 2 + 4 = 6\) ,
\(D(P_{1,2}) + d(P_{1,2},P_{2,3}) = 1 + 7 = 8\),
\(D(P_{1,3}) + d(P_{1,3},P_{2,3}) = 3 + 6 = 9\) ,
最短距離\(D(P_{2,3}) = min\left\{ 6,8,9 \right\} = 6\),前一個節點\(Pre(P_{2,3}) = P_{1,1}\) ;
第三層:
對節點 \(P_{3,1}\),
\(D(P_{2,1}) + d(P_{2,1},P_{3,1}) = 3 + 9 = 12\),
\(D(P_{2,2}) + d(P_{2,2},P_{3,1}) = 5 + 2 = 7\),
\(D(P_{2,3}) + d(P_{2,3},P_{3,1}) = 6 + 6 = 12\),
最短距離\(D(P_{3,1}) = min\left\{ 12,7,12 \right\} = 7\),前一個節點\(Pre(P_{3,1}) = P_{2,2}\);
對節點\(P_{3,2}\),
\(D(P_{2,1}) + d(P_{2,1},P_{3,2}) = 3 + 3 = 6\),
\(D(P_{2,2}) + d(P_{2,2},P_{3,2}) = 5 + 6 = 11\),
\(D(P_{2,3}) + d(P_{2,3},P_{3,2}) = 6 + 3 = 9\),
最短距離\(D(P_{3,2}) = min\left\{ 6,11,9 \right\} = 6\),前一個節點\(Pre(P_{3,2}) = P_{2,1}\);
對節點\(P_{3,3}\),
\(D(P_{2,1}) + d(P_{2,1},P_{3,3}) = 3 + 8 = 11\),
\(D(P_{2,2}) + d(P_{2,2},P_{3,3}) = 5 + 7 = 12\),
\(D(P_{2,3}) + d(P_{2,3},P_{3,3}) = 6 + 4 = 10\),
最短距離\(D(P_{3,3}) = min\left\{ 11,12,10 \right\} = 10\),前一個節點\(Pre(P_{3,3}) = P_{2,3}\);
第四層(終點):
對節點 \(E\),
\(D(P_{3,1}) + d(P_{3,1},E) = 7 + 3 = 10\),
\(D(P_{3,2}) + d(P_{3,2},E) = 6 + 7 = 13\),
\(D(P_{3,3}) + d(P_{3,3},E) = 10 + 6 = 16\),
最短距離\(D(E) = min\left\{ 10,13,16 \right\} = 10\),前一個節點\(Pre(E) = P_{3,1}\);
又\(Pre(E) = P_{3,1}\),\(Pre(P_{3,1}) = P_{2,2}\),\(Pre(P_{2,2}) = P_{1,3}\),\(Pre(P_{1,3}) = S\)
故最短距離為10,與之對應的路徑為(\(S\),\(P_{1,3}\),\(P_{2,2}\),\(P_{3,1}\),\(E\)).
三、隱馬爾可夫模型的解碼
1.問題描述
隱馬爾可夫模型(HMM)的解碼問題指,給定模型和輸出序列,如何找出最有可能產生這個輸出的狀態序列。自然語言處理中,也即如何通過觀測訊號確定最有可能對應的實際語義。在狀態序列上,每個狀態位是狀態集合中的元素之一,因此該問題等價於在狀態集合中的節點構成的有向網路(籬笆網路)中找出一條概率最大的路徑(最優路徑),如圖。該問題可以通過維特比演算法得到高效的解決。
2.演算法敘述
假設 \(P(s_{t,j})\)表示從起始時刻到\(s_{t,j}\)的最優路徑的概率,\(Pre(s_{t,j})\)表示從起始時刻到 \(s_{t,j}\)的最優路徑上前一個節點,則隱馬爾可夫模型的維特比解碼演算法為:
輸入:隱馬爾可夫模型 \(\lambda=(\pi,A,B)\)和觀測 \(O=(o_1,o_2,...,o_T)\);
輸出:最優狀態序列\(S^{\ast}=(s_{1}^{\ast},s_{2}^{\ast},...,s_{T}^{\ast})\).
(1)初始化
\(P(s_{1,j})=\pi_{j}b_{j}(o_1)\),
\(Pre(s_{1,j})=None\),\(j=1,2,...,N\)
(2)遞推
對 \(t=2,3,...,T\)
,\(j=1,2,...,N\).
(3)遞推終止
最大概率$$P^{\ast}=\max_{1\leq j \leq N}{P(s_{T,j})}$$
最優路徑上的最後一個狀態$$s_{T}^{\ast}=arg\max_{1\leq j \leq N}{\left[ P(s_{T,j}) \right]}$$
(4)回溯路徑,確定最優狀態序列
\(S^{\ast}=\left( s_{1}^{\ast},s_{2}^{\ast},...,s_{T-1}^{\ast},s_{T}^{\ast} \right)\)
\(=\left( Pre(s_{2}^{\ast}),Pre(s_{3}^{\ast}), ...,Pre(s_{T}^{\ast}),s_{T}^{\ast}\right)\)
3.示例
(參考自《統計學習方法》)
狀態集合 \(Q=\left\{ q_1, q_2, q_3 \right\}\),觀測集合\(V=\left\{ 0,1 \right\}\),模型 \(\lambda=\left( \pi,A,B \right)\) ,
\(A=\begin{bmatrix} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5 \\ \end{bmatrix}\) , \(B=\begin{bmatrix} 0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3 \end{bmatrix}\),\(\pi=\left( 0.2, 0.4, 0.4 \right)^{T}\)
已知觀測序列\(O=\left( 0, 1, 0 \right)\),求最優狀態序列。
解:
(1)在t=1時(初始化),對每一個狀態,求觀測為0的最大概率
\(P(s_{1,1})=0.2\times0.5=0.1\),\(Pre(s_{1,1})=None\)
\(P(s_{1,2})=0.4\times0.4=0.16\),\(Pre(s_{1,2})=None\)
\(P(s_{1,3})=0.4\times0.7=0.28\),\(Pre(s_{1,3})=None\)
(2)在t=2時,對每一個狀態,求觀測為1的
最大概率$$P(s_{2,j})=\max_{1 \leq k \leq 3}{\left[ P(s_{1,k})a_{kj} \right]b_{j}(1)}$$
當前最優的前一個狀態$$Pre(s_{2,j})=arg\max_{1 \leq k \leq 3}{\left[ P(s_{1,k})a_{kj} \right]}$$,\(j=1,2,3.\)
\(P(s_{2,1})=max\left\{ 0.1\times0.5\times0.5, 0.16\times0.3\times0.5, 0.28\times0.2\times0.5 \right\}\)\(=0.028\)
\(Pre(s_{2,1})=s_{1,3}=q_3\)
\(P(s_{2,2})=max\left\{ 0.1\times0.2\times0.6,0.16\times0.5\times0.6,0.28\times0.3\times0.6 \right\}\)\(=0.0504\)
\(Pre(s_{2,2})=s_{1,3}=q_3\)
\(P(s_{2,3})=max\left\{ 0.1\times0.3\times0.3, 0.16\times0.2\times0.3,0.28\times0.5\times0.3 \right\}\)\(=0.042\)
\(Pre(s_{2,3})=s_{1,3}=q_3\)
(3)在t=3時,對每一個狀態,求觀測為0的
最大概率 $$P(s_{3,j})=\max_{1 \leq k \leq 3}{\left[ P(s_{2,k})a_{kj} \right]b_{j}(0)}$$
當前最優的前一個狀態$$Pre(s_{3,j})=arg\max_{1 \leq k \leq 3}\left[ P(s_{2,k})a_{kj} \right]$$,\(j=1,2,3.\)
\(P(s_{3,1})=max\left\{ 0.028\times0.5\times0.5, 0.0504\times0.3\times0.5,0.042\times0.2\times0.5 \right\}\)\(=0.00756\)
\(Pre(s_{3,1})=s_{2,2}=q_2\)
\(P(s_{3,2})=max\left\{ 0.028\times0.2\times0.4, 0.0504\times0.5\times0.4, 0.042\times0.3\times0.4 \right\}\)\(=0.01008\)
\(Pre(s_{3,2})=s_{2,2}=q_2\)
\(P(s_{3,3})=max\left\{ 0.028\times0.3\times0.7,0.0504\times0.2\times0.7,0.042\times0.5\times0.7 \right\}\)\(=0.0147\)
\(Pre(s_{3,3})=s_{2,3}=q_3\)
(4)得到結果.
最大概率
\(P^{\ast}=\max_{1 \leq j \leq 3}P\left( s_{3,j} \right)\)
\(=max\left\{ 0.00756,0.01008,0.0147 \right\}\)
\(=0.0147\)
最優狀態序列
\(S^{\ast}=\left( Pre(s_{2}^{\ast})t,Pre(s_{3}^{\ast}),s_{3}^{\ast} \right)\)
\(=\left( s_{1,3},s_{2,3},s_{3,3} \right)\)
\(=\left( q_3,q_3,q_3 \right)\)
4.python實現
對上述HMM解碼示例的python實現程式為
import numpy as np
def viterbi(pi, A, B, Q, V, obs_seq):
'''
:param pi:HMM初始狀態概率向量,list型別
:param A:HMM狀態轉移概率矩陣,list型別
:param B:HMM觀測生成概率矩陣,list型別
:param Q:狀態集合,list型別
:param V:觀測集合,list型別
:param obs_seq:觀測序列,list型別
:return:最優狀態序列的概率sta_pro,float型別;最優狀態序列sta_seq,list型別
'''
# HMM模型引數轉換為array型別
pi = np.array(pi)
A = np.array(A)
B = np.array(B)
# 1.定義動態計算結果儲存矩陣
rowNum = len(Q) # 行數,狀態數
colNum = len(obs_seq) # 列數,生成的觀測數,即時刻數
# 儲存節點當前最大概率的矩陣
probaMatrix = np.zeros((rowNum,colNum))
# 儲存當前最優路徑下的前一個節點的矩陣
preNodeMatrix = np.zeros((rowNum,colNum))
# 2.初始化(第1時刻)
probaMatrix[:,0] = pi*np.transpose(B[:,obs_seq[0]])
preNodeMatrix[:,0] = [-1]*rowNum # 第1時刻節點的前一個節點不存在,置為-1
# 3.遞推,第2時刻至最後
for t in range(1, colNum):
list_pre_max_proba = [] # 節點最大前置概率列表
list_pre_node = [] # 節點當前最優路徑中前一個節點列表
for j in range(rowNum):
pre_proba_list = list(np.array(probaMatrix[:,t-1])*np.transpose(A[:,j])) # 前置概率列表,前一時刻的節點最大概率與到當前節點轉移概率的乘積
'''
注:因為計算機的二進位制機制對小數的表達是有限的,所以對小數作運算將產生一定的誤差。
在使用函式獲取pre_proba_list中的最大值和對應的索引時,為有效降低這種誤差,將資料放大後再進行操作。
'''
pre_proba_list = [x*pow(10,5) for x in pre_proba_list] # 放大100000倍
prePro = max(pre_proba_list)/pow(10,5) # 最大前置概率
preNodeIndexNum = pre_proba_list.index(max(pre_proba_list)) # 前置節點的索引號
list_pre_max_proba.append(prePro) # 最大前置概率加入列表
list_pre_node.append(preNodeIndexNum) # 前置節點的索引號加入列表
probaMatrix[:,t] = np.array(list_pre_max_proba)*np.transpose(B[:,obs_seq[t]]) # 最大前置概率乘上觀測概率,即為當前最大概率
preNodeMatrix[:,t] = list_pre_node # 將該列前置節點索引號加入矩陣
# 此時,得到了完整的probaMatrix和preNodeMatrix,對這兩個矩陣進行操作便可得到需要的結果
# 4.得到最大概率
maxPro = np.max(probaMatrix[:, colNum-1]) # 全域性最大概率(即最後一列的最大值)
# 5.得到最優狀態序列的狀態索引號列表
lastStateIndexNum = np.argmax(probaMatrix[:, colNum-1]) # 最優狀態序列中最後一個狀態的索引號
stateIndexList = [] # 定義最優狀態的索引號列表
stateIndexList.append(lastStateIndexNum)
# 回溯,完成狀態索引號列表
currentIndex = lastStateIndexNum;
for t in range(colNum-1, 0, -1):
fls = preNodeMatrix[:, t].tolist() # 矩陣中的數值是浮點型
ls = list(map(int, fls)) # 轉為整型
currentIndex = ls[currentIndex]
stateIndexList.append(currentIndex)
stateIndexList.reverse() # 反轉列表
# 6.由索引號序列得到最優狀態序列
stateSeq = [Q[i] for i in stateIndexList]
return maxPro,stateSeq
if __name__=='__main__':
# 狀態集合
Q = ["q1", "q2", "q3"]
# 觀測集合
V = [0, 1]
# 初始狀態概率向量
pi = [0.2, 0.4, 0.4]
# 狀態轉移概率矩陣
A = [[0.5, 0.2, 0.3],
[0.3, 0.5, 0.2],
[0.2, 0.3, 0.5]]
# 觀測概率矩陣
B = [[0.5, 0.5],
[0.4, 0.6],
[0.7, 0.3]]
# 觀測序列
obs_seq = [0, 1, 0]
maxPro, stateSeq = viterbi(pi, A, B, Q, V, obs_seq)
print("最大概率為:", maxPro)
print("最優狀態序列為:", stateSeq)
End.
參考
- 吳軍. 數學之美(第二版). 人民郵電出版社.
- 李航. 統計學習方法. 清華大學出版社.
- https://www.cnblogs.com/zhibei/p/9391014.html