條件隨機場CRF(二) 前向後向演算法評估標記序列概率

劉建平Pinard發表於2017-06-22

原文網址 : http://www.cnblogs.com/pinard/p/7055072.html

　　　　在條件隨機場CRF(一)中我們總結了CRF的模型，主要是linear-CRF的模型原理。本文就繼續討論linear-CRF需要解決的三個問題：評估，學習和解碼。這三個問題和HMM是非常類似的，本文關注於第一個問題：評估。第二個和第三個問題會在下一篇總結。

1. linear-CRF的三個基本問題

　　　　在隱馬爾科夫模型HMM中，我們講到了HMM的三個基本問題，而linear-CRF也有三個類似的的基本問題。不過和HMM不同，在linear-CRF中，我們對於給出的觀測序列$x$是一直作為一個整體看待的，也就是不會拆開看$(x_1,x_2,...)$，因此linear-CRF的問題模型要比HMM簡單一些，如果你很熟悉HMM，那麼CRF的這三個問題的求解就不難了。

　　　　 linear-CRF第一個問題是評估，即給定 linear-CRF的條件概率分佈$P(y|x)$, 在給定輸入序列$x$和輸出序列$y$時，計算條件概率$P(y_i|x)$和$P(y_{i-1}，y_i|x)$以及對應的期望. 本文接下來會詳細討論問題一。

　　　　 linear-CRF第二個問題是學習，即給定訓練資料集$X$和$Y$，學習linear-CRF的模型引數$w_k$和條件概率$P_w(y|x)$，這個問題的求解比HMM的學習演算法簡單的多，普通的梯度下降法，擬牛頓法都可以解決。

　　　　 linear-CRF第三個問題是解碼，即給定 linear-CRF的條件概率分佈$P(y|x)$,和輸入序列$x$, 計算使條件概率最大的輸出序列$y$。類似於HMM，使用維特比演算法可以很方便的解決這個問題。　

2.linear-CRF的前向後向概率概述

　　　　要計算條件概率$P(y_i|x)$和$P(y_{i-1}，y_i|x)$，我們也可以使用和HMM類似的方法，使用前向後向演算法來完成。首先我們來看前向概率的計算。

　　　　我們定義$\alpha_i(y_i|x)$表示序列位置$i$的標記是$y_i$時，在位置$i$之前的部分標記序列的非規範化概率。之所以是非規範化概率是因為我們不想加入一個不影響結果計算的規範化因子$Z(x)$在分母裡面。

　　　　在條件隨機場CRF(一)第八節中，我們定義了下式：$$M_i(y_{i-1},y_i |x) = exp(\sum\limits_{k=1}^Kw_kf_k(y_{i-1},y_i, x,i))$$

　　　　這個式子定義了在給定$y_{i-1}$時，從$y_{i-1}$轉移到$y_i$的非規範化概率。

　　　　這樣，我們很容易得到序列位置$i+1$的標記是$y_{i+1}$時，在位置$i+1$之前的部分標記序列的非規範化概率$\alpha_{i+1}(y_{i+1}|x)$的遞推公式：$$\alpha_{i+1}(y_{i+1}|x) = \alpha_i(y_i|x)M_{i+1}(y_{i+1},y_i|x) \;\; i=1,2,...,n+1$$

　　　　在起點處，我們定義：$$\alpha_0(y_0|x)= \begin{cases} 1 & {y_0 =start}\\ 0 & {else} \end{cases}$$

　　　　假設我們可能的標記總數是$m$, 則$y_i$的取值就有$m$個，我們用$\alpha_i(x)$表示這$m$個值組成的前向向量如下：$$\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ... \alpha_i(y_i=m|x))^T$$

　　　　同時用矩陣$M_i(x)$表示由$M_i(y_{i-1},y_i |x) $形成的$m \times m$階矩陣：$$M_i(x) = \Big[ M_i(y_{i-1},y_i |x)\Big]$$

　　　　這樣遞推公式可以用矩陣乘積表示：$$\alpha_{i+1}^T(x) = \alpha_i^T(x)M_{i+1}(x)$$

　　　　同樣的。我們定義$\beta_i(y_i|x)$表示序列位置$i$的標記是$y_i$時，在位置$i$之後的從$i+1$到$n$的部分標記序列的非規範化概率。

　　　　這樣，我們很容易得到序列位置$i+1$的標記是$y_{i+1}$時，在位置$i$之後的部分標記序列的非規範化概率$\beta_{i}(y_{i}|x)$的遞推公式：$$\beta_{i}(y_{i}|x) = M_{i+1}(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)$$

　　　　在終點處，我們定義：$$\beta_{n+1}(y_{n+1}|x)= \begin{cases} 1 & {y_{n+1} =stop}\\ 0 & {else} \end{cases}$$

　　　　如果用向量表示，則有：$$\beta_i(x) = M_{i+1}(x)\beta_{i+1}(x)$$

　　　　由於規範化因子$Z(x)$的表示式是：$$Z(x) = \sum\limits_{c=1}^m\alpha_{n}(y_c|x) = \sum\limits_{c=1}^m\beta_{1}(y_c|x)$$

　　　　也可以用向量來表示$Z(x)$:$$Z(x) = \alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T \bullet \beta_{1}(x)$$

　　　　其中，$\mathbf{1}$是$m$維全1向量。

3. linear-CRF的前向後向概率計算

　　　　有了前向後向概率的定義和計算方法，我們就很容易計算序列位置$i$的標記是$y_i$時的條件概率$P(y_i|x)$:$$P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$$

　　　　也容易計算序列位置$i$的標記是$y_i$，位置$i-1$的標記是$y_{i-1}$ 時的條件概率$P(y_{i-1},y_i|x)$:$$P(y_{i-1},y_i|x) = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$$

4. linear-CRF的期望計算

　　　　有了上一節計算的條件概率，我們也可以很方便的計算聯合分佈$P(x,y)$與條件分佈$P(y|x)$的期望。

　　　　特徵函式$f_k(x,y)$關於條件分佈$P(y|x)$的期望表示式是：$$\begin{align} E_{P(y|x)}[f_k] & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{align}$$

　　　　同樣可以計算聯合分佈$P(x,y)$的期望：$$\begin{align} E_{P(x,y)}[f_k] & = \sum\limits_{x,y}P(x,y) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x) \sum\limits_{y}P(y|x) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{align}$$

　　　　假設一共有$K$個特徵函式，則$k=1,2,...K$

5. linear-CRF前向後向演算法總結

　　　　以上就是linear-CRF的前向後向演算法，個人覺得比HMM簡單的多，因此大家如果理解了HMM的前向後向演算法，這一篇是很容易理解的。

　　　　注意到我們上面的非規範化概率$M_{i+1}(y_{i+1},y_i|x)$起的作用和HMM中的隱藏狀態轉移概率很像。但是這兒的概率是非規範化的，也就是不強制要求所有的狀態的概率和為1。而HMM中的隱藏狀態轉移概率也規範化的。從這一點看，linear-CRF對序列狀態轉移的處理要比HMM靈活。

（歡迎轉載，轉載請註明出處。歡迎溝通交流： liujianping-ok@163.com）　　　　　

HMM-前向後向演算法
2020-05-11
HMM演算法
簡明條件隨機場CRF介紹 | 附帶純Keras實現
2018-05-22
條件隨機場CRFKeras
雙向迴圈神經網路+條件隨機場進行分詞
2019-02-21
神經網路條件隨機場分詞
crf（條件隨機場）用於遙感影像分類結果的優化
2020-11-20
CRF條件隨機場優化
11_條件隨機場
2020-06-14
條件隨機場
中文分詞的探索，CRF（條件隨機場）和HMM（隱馬爾可夫模型）用於分詞的對比，以及中文分詞的評估
2018-11-10
中文分詞CRF條件隨機場HMM隱馬爾可夫模型
HMM-前向後向演算法理解與實現（python）
2020-05-13
HMM演算法Python
六種GAN評估指標的綜合評估實驗，邁向定量評估GAN的重要一步
2018-07-02
指標
條件概率與全概率公式
2019-03-21
公式
神經網路前向和後向傳播推導（二）：全連線層
2022-06-07
神經網路
條件隨機場實現命名實體識別
2019-03-02
條件隨機場
條件概率、全概率、貝葉斯公式理解
2020-05-22
公式
機器學習筆記之效能評估指標
2018-04-25
機器學習筆記指標
8.11 標頭檔案剖析：前向引用
2020-10-28
先驗概率後驗概率似然估計
2018-03-30
評估指標與評分（上）：二分類指標
2022-05-28
指標
分類演算法的評估指標
2020-04-06
演算法指標
演算法金 | 必會的機器學習評估指標
2024-06-28
演算法機器學習指標
神經網路前向和後向傳播推導（一）：概覽
2022-06-06
神經網路
OGG雙向條件複製的部署與測試
2018-03-28
[筆記]極大似然估計、最大後驗概率、貝葉斯估計
2020-11-07
筆記
大資料分析——市場風向標
2022-11-29
大資料
特徵重要性評估的隨機森林演算法與Python實現(三)
2024-05-02
特徵隨機森林演算法Python
Python中的隨機取樣和概率分佈(二)
2021-12-06
Python隨機概率分佈
機器學習-學習筆記(二) --> 模型評估與選擇
2022-06-09
機器學習筆記模型
01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)
2018-12-22
演算法
Java課堂筆記（二）：物件導向
2019-05-09
Java筆記物件
Win10如何將音量條從橫向變為豎向 win10音量條怎麼從橫向變為豎向
2020-09-01
Win10
計算機正高階職稱評審條件
2024-09-09
計算機
概率統計第二章隨機變數及其分佈
2020-10-05
隨機變數
進行SQL Server縱向擴充套件的必備條件KV
2022-03-21
SQLServer套件
機器學習演算法筆記之7：模型評估與選擇
2020-04-06
機器學習演算法筆記模型
《全球計算力指數評估報告》:計算力緣何成為數字經濟風向標
2021-02-09
近萬人圍觀Hinton最新演講：前向-前向神經網路訓練演算法，論文已公開
2022-12-02
神經網路演算法
按條件查出兩條記錄後求其位置間隔
2020-06-12
【概率論】一維隨機變數
2021-01-03
隨機變數
迴歸模型-評估指標
2018-06-02
模型指標
前向渲染和延遲渲染
2024-04-12
SPFA和鏈式前向星
2022-11-23

條件隨機場CRF(二) 前向後向演算法評估標記序列概率

1. linear-CRF的三個基本問題

2.linear-CRF的前向後向概率概述

3. linear-CRF的前向後向概率計算

4. linear-CRF的期望計算

5. linear-CRF前向後向演算法總結

相關文章