史上最全中文分詞工具整理

adnb34g發表於2019-06-03

原文網址 : http://blog.itpub.net/31524777/viewspace-2646553/

一．中文分詞

二．準確率評測：

THULAC：與代表性分詞軟體的效能對比

我們選擇 LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做效能比較。我們選擇Windows作為測試環境，根據第二屆國際漢語分詞測評（The SecondInternational Chinese Word Segmentation Bakeoff)釋出的國際中文分詞測評標準，對不同軟體進行了速度和準確率測試。

在第二屆國際漢語分詞測評中，共有四家單位提供的測試語料 (Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集（training）、測試集（testing）, 以及根據各自分詞標準而提供的相應測試集的標準答案（icwb2-data/scripts/gold）．在icwb2-data/scripts目錄下含有對分詞進行自動評分的perl指令碼score。

我們在統一測試環境下，對上述流行分詞軟體和 THULAC進行了測試，使用的模型為各分詞軟體自帶模型。THULAC使用的是隨軟體提供的簡單模型Model_1。評測環境為 Intel Core i5 2.4 GHz 評測結果如下：

除了以上在標準測試集上的評測，我們也對各個分詞工具在大資料上的速度進行了評測，結果如下：

CNKI_journal.txt（51 MB）

分詞資料準備及評測由 BosonNLP完成：11 款開放中文分詞引擎大比拼（2015年釋出）

分詞的客觀量化測試離不開標註資料，即人工所準備的分詞 “標準答案”。在資料來源方面，我們將測試分為: 1.新聞資料：140篇，共30517詞語； 2.微博資料：200篇，共12962詞語； 3.汽車論壇資料（汽車之家）100篇：共27452詞語； 4.餐飲點評資料（大眾點評）：100條，共8295詞語。

準確度計算規則：

將所有標點符號去除，不做比較

參與測試的部分系統進行了實體識別，可能造成詞語認定的不統一。我們將對應位置替換成了人工標註的結果，得到準確率估算的上界。

經過以上處理，用 SIGHAN 分詞評分指令碼比較得到最終的準確率，召回率和F1值。

以上所有資料採用北大現代漢語基本加工規範對所有資料進行分詞作為標準。具體資料下載地址請參見附錄。通過這四類資料綜合對比不同分詞系統的分詞準確度。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31524777/viewspace-2646553/，如需轉載，請註明出處，否則將追究法律責任。

最全中文停用詞表整理（1893個）
2020-10-02
中文分詞器，整理自Ai
2024-08-01
中文分詞AI
部分常用分詞工具使用整理
2019-05-29
分詞
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
【純乾貨】史上最全LOGO素材站整理（內含線上製作工具）（一）
2018-07-17
Go
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
中文分詞演算法工具hanlp原始碼解析
2019-03-13
中文分詞演算法HanLP原始碼
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
北大開源了中文分詞工具包：準確率遠超THULAC、結巴分詞！
2019-01-11
中文分詞
北大開源全新中文分詞工具包：準確率遠超THULAC、結巴分詞
2019-01-10
中文分詞
古詩詞中文分詞自動化
2018-04-05
分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
嚴選 | Elasticsearch史上最全最常用工具清單
2019-02-21
Elasticsearch
史上最全webview詳解
2018-04-02
WebView
自然語言處理工具中的中文分詞器介紹
2019-06-24
自然語言處理中文分詞
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
如何用Python做中文分詞？
2018-06-28
Python中文分詞
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
中文搜尋引擎技術揭密：中文分詞
2020-04-05
中文分詞
pyhanlp 中文詞性標註與分詞簡介
2019-01-07
HanLP詞性標註分詞
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
2020年最新C++最全中文資源整理分享
2020-12-13
C++
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞
Android史上最全面試題
2019-01-14
Android面試題
史上最全的WebSettings說明
2019-08-26
Web
史上最全SQL優化方案
2019-02-01
SQL優化
python 實現中文分詞統計
2019-02-16
Python中文分詞
elastcisearch中文分詞器各個版本
2019-01-03
AST中文分詞
深度有趣 | 15 淺談中文分詞
2018-09-20
中文分詞
Coreseek-帶中文分詞的Sphinx
2020-04-05
中文分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
花了近十年的時間，整理出史上最全面Java面試題
2019-08-19
Java面試題
史上最全——自媒體工具指南，爆文蒐集、排版、圖片等！
2022-01-14

史上最全中文分詞工具整理

相關文章