中文分詞工具之基於字標註法的分詞
基於字標註法的分詞
中文分詞字標註通常有 2-tag,4-tag 和 6-tag 這幾種方法,其中 4-tag 方法最為常用。標註集是依據漢字(其中也有少量的非漢字字元)在漢語詞中的位置設計的。
1. 2-tag 法
2-tag 是一種最簡單的標註方法 , 標註集合為 {B,I} ,其將詞首標記設計為 B ,而將詞的其他位置標記設計為 I 。例如詞語“重慶”的標註結果是“重 /B 慶 /I ”,而“大學生”的標註結果為“大 /B 學 /I 生 /I ”
對於以下句子
邁向 充滿 希望 的 新 世紀 —— 一九九八年 新年 講話
使用 2-tag ( B , I )的標註結果為
邁 /B 向 /I 充 /B 滿 /I 希 /B 望 /I 的 /B 新 /B 世 /B 紀 /I — /B — /I 一 /B 九 /I 九 /I 八 /I 年 /I 新 /B 年 /I 講 /B 話 /I
2.4-tag 法
4-tag 標註集合為 {S,B,M,E} , S 表示單字為詞, B 表示詞的首字, M 表示詞的中間字, E 表示詞的結尾字。對於以下句子
邁向 充滿 希望 的 新 世紀 —— 一九九八年 新年 講話
使用 4-tag ( S,B,M,E )的標註結果為
邁 /B 向 /E 充 /B 滿 /E 希 /B 望 /E 的 /S 新 /S 世 /B 紀 /E — /B — /E 一 /B 九 /M 九 /M 八 /M 年 /E 新 /B 年 /E 講 /B 話 /E
參考我愛自然語言處理部落格, python 實現方法為
本文使用 pku 語料庫,其原始格式為
標註後的結果為
3.6-tag 法
6-tag 標註集合為 {S,B,M1,M2,M,E} , S 表示單字為詞, B 表示詞的首字, M1/M2/M 表示詞的中間字, E 表示詞的結尾字。例如“大學生”可以標註為“大 /B 學 /M 生 /E ” 。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2648749/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- jieba 詞性標註 & 並行分詞Jieba詞性標註並行分詞
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- [Python] 基於 jieba 的中文分詞總結PythonJieba中文分詞
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 學習筆記CB002:詞幹提取、詞性標註、中文切詞、文件分類筆記詞性標註
- 基於單字位置最大概率的Python分詞工具snailsegPython分詞AI
- 史上最全中文分詞工具整理中文分詞
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 中文分詞技術中文分詞
- IKAnalyzer 中文分詞的不同版本切詞方式中文分詞
- NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,並行分詞,起止位置,文字挖掘,NLP WordEmbedding的概念和實現自然語言處理Jieba中文分詞詞性標註並行
- iOS中文近似度的演算法及中文分詞(結巴分詞)的整合iOS演算法中文分詞
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- 基於hanlp的es分詞外掛HanLP分詞
- 中文分詞的探索,CRF(條件隨機場)和HMM(隱馬爾可夫模型)用於分詞的對比,以及中文分詞的評估中文分詞CRF條件隨機場HMM隱馬爾可夫模型
- 簡單有效的多標準中文分詞詳解中文分詞
- 基於spark2.0文字分詞+多分類模型Spark分詞模型
- 北大開源了中文分詞工具包:準確率遠超THULAC、結巴分詞!中文分詞
- 北大開源全新中文分詞工具包:準確率遠超THULAC、結巴分詞中文分詞
- 達觀資料基於Deep Learning的中文分詞嘗試中文分詞
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- 雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)演算法中文分詞Java
- 基於中文分詞工具pkuseg-python,我用張小龍的3萬字演講做了測試中文分詞Python
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- SCWS PHP 中文簡易分詞PHP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- ElasticSearch5.6.1 + 中文分詞(IK)ElasticsearchH5中文分詞
- 分享IKAnalyzer 3.0 中文分詞器中文分詞
- 中文分詞器,整理自Ai中文分詞AI
- 分詞分詞
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞