史上最全中文分詞工具整理
一.中文分詞
二.準確率評測:
THULAC:與代表性分詞軟體的效能對比
我們選擇 LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做效能比較。我們選擇Windows作為測試環境,根據第二屆國際漢語分詞測評(The SecondInternational Chinese Word Segmentation Bakeoff)釋出的國際中文分詞測評標準,對不同軟體進行了速度和準確率測試。
在第二屆國際漢語分詞測評中,共有四家單位提供的測試語料 (Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集(training)、測試集(testing), 以及根據各自分詞標準而提供的相應測試集的標準答案(icwb2-data/scripts/gold).在icwb2-data/scripts目錄下含有對分詞進行自動評分的perl指令碼score。
我們在統一測試環境下,對上述流行分詞軟體和 THULAC進行了測試,使用的模型為各分詞軟體自帶模型。THULAC使用的是隨軟體提供的簡單模型Model_1。評測環境為 Intel Core i5 2.4 GHz 評測結果如下:
除了以上在標準測試集上的評測,我們也對各個分詞工具在大資料上的速度進行了評測,結果如下:
CNKI_journal.txt(51 MB)
分詞資料準備及評測由 BosonNLP完成:11 款開放中文分詞引擎大比拼(2015年釋出)
分詞的客觀量化測試離不開標註資料,即人工所準備的分詞 “標準答案”。在資料來源方面,我們將測試分為: 1.新聞資料:140篇,共30517詞語; 2.微博資料:200篇,共12962詞語; 3.汽車論壇資料(汽車之家)100篇:共27452詞語; 4.餐飲點評資料(大眾點評):100條,共8295詞語。
準確度計算規則:
將所有標點符號去除,不做比較
參與測試的部分系統進行了實體識別,可能造成詞語認定的不統一。我們將對應位置替換成了人工標註的結果,得到準確率估算的上界。
經過以上處理,用 SIGHAN 分詞評分指令碼比較得到最終的準確率,召回率和F1值。
以上所有資料採用北大現代漢語基本加工規範對所有資料進行分詞作為標準。具體資料下載地址請參見附錄。通過這四類資料綜合對比不同分詞系統的分詞準確度。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2646553/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 最全中文停用詞表整理(1893個)
- 中文分詞器,整理自Ai中文分詞AI
- 部分常用分詞工具使用整理分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- 中文分詞工具之基於字標註法的分詞中文分詞
- 【純乾貨】史上最全LOGO素材站整理(內含線上製作工具)(一)Go
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- NLP之中文分詞中文分詞
- 中文分詞技術中文分詞
- 北大開源了中文分詞工具包:準確率遠超THULAC、結巴分詞!中文分詞
- 北大開源全新中文分詞工具包:準確率遠超THULAC、結巴分詞中文分詞
- 古詩詞 中文 分詞 自動化分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- 中文自然語言處理工具集:分詞,相似度匹配自然語言處理分詞
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- 嚴選 | Elasticsearch史上最全最常用工具清單Elasticsearch
- 史上最全webview詳解WebView
- 自然語言處理工具中的中文分詞器介紹自然語言處理中文分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- 如何用Python做中文分詞?Python中文分詞
- SCWS PHP 中文簡易分詞PHP分詞
- 中文搜尋引擎技術揭密:中文分詞中文分詞
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 2020年最新C++最全中文資源整理分享C++
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- Android史上最全面試題Android面試題
- 史上最全的WebSettings說明Web
- 史上最全SQL優化方案SQL優化
- python 實現中文分詞統計Python中文分詞
- elastcisearch中文分詞器各個版本AST中文分詞
- 深度有趣 | 15 淺談中文分詞中文分詞
- Coreseek-帶中文分詞的Sphinx中文分詞
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞
- 花了近十年的時間,整理出史上最全面Java面試題Java面試題
- 史上最全——自媒體工具指南,爆文蒐集、排版、圖片等!