開源自然語言處理工具包hanlp中CRF分詞實現詳解

CRF 簡介

CRF 是序列標註場景中常用的模型，比 HMM 能利用更多的特徵，比 MEMM 更能抵抗標記偏置的問題。

[gerative-discriminative.png]

CRF 訓練

這類耗時的任務，還是交給了用 C++ 實現的 CRF++ 。關於 CRF++ 輸出的 CRF 模型，請參考《 CRF++ 模型格式說明》。

CRF 解碼

解碼採用維特比演算法實現。並且稍有改進，用中文偽碼與白話描述如下：

首先任何字的標籤不僅取決於它自己的引數，還取決於前一個字的標籤。但是第一個字前面並沒有字，何來標籤？所以第一個字的處理稍有不同，假設第個字的標籤為 X ，遍歷 X 計算第一個字的標籤，取分數最大的那一個。

如何計算一個字的某個標籤的分數呢？某個字根據 CRF 模型提供的模板生成了一系列特徵函式，這些函式的輸出值乘以該函式的權值最後求和得出了一個分數。該分數只是“點函式”的得分，還需加上“邊函式”的得分。邊函式在本分詞模型中簡化為 f(s ’ ,s) ，其中 s ’為前一個字的標籤， s 為當前字的標籤。於是該邊函式就可以用一個 4*4 的矩陣描述，相當於 HMM 中的轉移概率。

實現了評分函式後，從第二字開始即可運用維特比後向解碼，為所有字打上 BEMS 標籤。

例項

還是取經典的 “商品和服務”為例，首先 HanLP 的 CRFSegment 分詞器將其拆分為一張表：

null 表示分詞器還沒有對該字標註。

程式碼

上面說了這麼多，其實我的實現非常簡練：

標註結果

標註後將 table列印出來：

最終處理

將 BEMS 該合併的合併，得到：

[ 商品 /null, 和 /null, 服務 /null]

然後將詞語送到詞典中查詢一下，沒查到的暫時當作 nx ，並記下位置（因為這是個新詞，為了表示它的特殊性，最後詞性設為 null ），再次使用維特比標註詞性：

[ 商品 /n, 和 /cc, 服務 /vn]

新詞識別

CRF 對新詞有很好的識別能力，比如：

CRFSegment segment = new CRFSegment();

segment.enablePartOfSpeechTagging(true);

System.out.println(segment.seg(" 你看過穆赫蘭道嗎 "));

輸出：

CRF 標註結果

你 S

看 S

過 S

穆 B

赫 M

蘭 M

道 E

嗎 S

[ 你 /rr, 看 /v, 過 /uguo, 穆赫蘭道 /null, 嗎 /y]

null 表示新詞。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31524777/viewspace-2637046/，如需轉載，請註明出處，否則將追究法律責任。

NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Spring Boot中對自然語言處理工具包hanlp的呼叫詳解
2018-11-21
Spring Boot自然語言處理HanLP
Hanlp自然語言處理中的詞典格式說明
2019-03-15
HanLP自然語言處理
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
Hanlp中使用純JAVA實現CRF分詞
2018-10-19
HanLPJavaCRF分詞
自然語言處理工具包HanLP的Python介面
2018-10-18
自然語言處理HanLPPython
自然語言處理工具HanLP-N最短路徑分詞
2019-05-17
自然語言處理HanLP分詞
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
詞！自然語言處理之詞全解和Python實戰！
2023-11-06
自然語言處理Python
自然語言處理入門基礎之hanlp詳解
2018-10-31
自然語言處理HanLP
自然語言處理工具包 HanLP在 Spring Boot中的應用
2018-10-31
自然語言處理HanLPSpring Boot
自然語言處理工具hanlp自定義詞彙新增圖解
2019-01-27
自然語言處理HanLP圖解
Python自然語言處理實戰（3）：中文分詞技術
2018-07-15
Python自然語言處理中文分詞
hanlp自然語言處理包的基本使用--python
2018-09-28
HanLP自然語言處理Python
HanLP-實詞分詞器詳解
2019-05-27
HanLP分詞
Hanlp自然語言處理工具之詞法分析器
2019-04-10
HanLP自然語言處理詞法分析
Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
入門自然語言處理必看：圖解詞向量
2019-08-28
自然語言處理圖解
如何編譯執行HanLP自然語言處理包
2019-03-06
編譯HanLP自然語言處理
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
中文自然語言處理工具hanlp隱馬角色標註詳解
2019-02-13
自然語言處理HanLP
自然語言處理工具hanlp定製使用者詞條
2019-05-20
自然語言處理HanLP
自然語言處理工具hanlp關鍵詞提取圖解TextRank演算法
2019-02-20
自然語言處理HanLP圖解演算法
自然語言處理之：搭建基於HanLP的開發環境
2018-11-09
自然語言處理HanLP開發環境
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
12 種自然語言處理的開源工具
2020-02-25
自然語言處理開源工具
HanLP分詞命名實體提取詳解
2019-01-11
HanLP分詞
hanlp自然語言處理包的人名識別程式碼解析
2019-08-02
HanLP自然語言處理
自然語言處理工具中的中文分詞器介紹
2019-06-24
自然語言處理中文分詞
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
漢語言處理包HanLP1.6.4釋出，優化新詞發現
2018-11-05
HanLP優化
NPL---自然語言處理單詞界定問題
2024-03-18
自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
python呼叫自然語言處理工具hanlp記錄
2018-10-31
Python自然語言處理HanLP

開源自然語言處理工具包hanlp中CRF分詞實現詳解

相關文章