中文分詞工具之基於字標註法的分詞

adnb34g發表於2019-06-26


基於字標註法的分詞

中文分詞字標註通常有 2-tag,4-tag 6-tag 這幾種方法,其中 4-tag 方法最為常用。標註集是依據漢字(其中也有少量的非漢字字元)在漢語詞中的位置設計的。

1. 2-tag

2-tag 是一種最簡單的標註方法 , 標註集合為 {B,I} ,其將詞首標記設計為 B ,而將詞的其他位置標記設計為 I 。例如詞語“重慶”的標註結果是“重 /B /I ”,而“大學生”的標註結果為“大 /B /I /I

對於以下句子

邁向 充滿 希望 世紀 —— 一九九八年 新年 講話

使用 2-tag B I )的標註結果為

/B /I /B 滿 /I /B /I /B /B /B /I /B /I /B /I /I /I /I /B /I /B /I

 

2.4-tag

 

4-tag 標註集合為 {S,B,M,E} S 表示單字為詞, B 表示詞的首字, M 表示詞的中間字, E 表示詞的結尾字。對於以下句子

邁向 充滿 希望 世紀 —— 一九九八年 新年 講話

使用 4-tag S,B,M,E )的標註結果為

/B /E /B 滿 /E /B /E /S /S /B /E /B /E /B /M /M /M /E /B /E /B /E

參考我愛自然語言處理部落格, python 實現方法為

 

本文使用 pku 語料庫,其原始格式為

 

 

標註後的結果為

 

3.6-tag

6-tag 標註集合為 {S,B,M1,M2,M,E} S 表示單字為詞, B 表示詞的首字, M1/M2/M 表示詞的中間字, E 表示詞的結尾字。例如“大學生”可以標註為“大 /B /M /E ” 。


 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2648749/,如需轉載,請註明出處,否則將追究法律責任。

相關文章