CRF基礎知識以及如何實現Learning,Inference

上官塵發表於2020-10-13

CRF:Conditional Random Field,即條件隨機場。
首先介紹一下基礎背景知識。機器學習中的分類問題可以分為硬分類和軟分類。硬分類常見的模型有SVM、PLA、LDA等。SVM可以稱為max margin classifier,基於幾何間隔進行分類。軟分類一般分為logistic Regnesstion(概率判別模型)和 Naive Bayes(概率生成模型)。概率判別模型和概率生成模型的區別是,概率判別模型是對\(P\left ( y|x \right )\)進行建模,概率生成模型是對\(P\left ( x,y \right )\)進行建模。
1.概率生成模型
Naive即樸素貝葉斯假設,公式表示就是\(P\left ( x|y=y_{0} \right )= \prod_{i=1}^{p}P\left ( x_{i}|y=y_{0} \right )\),通俗的解釋就是給定隱變數的條件下,觀測變數之間相互獨立,即\(x_{i}\perp x_{j}|y,i\neq j\),如圖1所示。當\(y\)被觀測時,阻斷了觀測變數之間的路徑。

當隱變數一個line的時候,就是HMM(Hidden markov model)模型,如圖2所示。

如果大家有學過概率圖模型的話,肯定知道有向圖中的d-分離。通過有向圖的獨立性假設,我們可以非常直觀的得到HMM的兩大假設。即齊次Markov假設和觀測獨立假設。這兩個假設的表示式分別為:
齊次Markov假設:\(P\left ( y_{t}|y_{1:t-1},x_{1:t-1} \right )= P\left ( y_{t}|y_{t-1} \right )\)
觀測獨立假設:\(P\left ( x_{t}|y_{1:t},x_{1:t-1} \right )= P\left ( x_{t}|y_{t} \right )\)
2.概率判別模型
比如最大熵模型,採用最大熵思想。比如:給定方差和均值,高斯分佈熵最大。。
3.兩者結合就出現了MEMM:Maximum Entropy Markov Model。這是一種概率判別模型。

進行獨立性分析可以發現,該模型打破了HMM的觀測獨立假設,模型變得更加的合理了。比如,文字標註問題中,上下文對於標註會產生影響。
但是同樣存在標註偏差問題,原因是區域性歸一化。John Lafferty的論文中講解了該問題為什麼存在。用一句話來概括就是:Conditional distribution with low entropy take less notice of observation.
4.Chain-structure CRF
該模型克服了標註偏差問題,CRF的模型如下圖4所示,隱變數之間變為無向邊,所以是全域性歸一化。

接下來會寫如何利用CRF實現Learning、Inference等任務。