hanlp和jieba等六大中文分工具的測試對比
本篇文章測試的 哈工大 LTP 、中科院計算所 NLPIR 、清華大學 THULAC 和 jieba 、 FoolNLTK 、 HanLP 這六大中文分詞工具是由 水 ... 琥珀 完成的。相關測試的文章之前也看到過一些,但本篇闡述的可以說是比較詳細的了。這裡就分享一下給各位朋友!
安裝呼叫
jieba “結巴”中文分詞:做最好的 Python 中文分片語件
THULAC 清華大學:一個高效的中文詞法分析工具包
FoolNLTK 可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞
教程: FoolNLTK 及 HanLP 使用
HanLP 最高分詞速度 2,000 萬字 / 秒
** 中科院 Ictclas 分詞系統 - NLPIR 漢語分詞系統
哈工大 LTP
LTP 安裝教程 [python 哈工大 NTP 分詞 安裝 pyltp 及配置模型(新) ]
如下是測試程式碼及結果
下面測試的文字上是極易分詞錯誤的文字,分詞的效果在很大程度上就可以提現分詞器的分詞情況。接下來驗證一下,分詞器的宣傳語是否得當吧。
jieba 中文分詞
thulac 中文分詞
fool 中文分詞
HanLP 中文分詞
中科院分詞 nlpir
哈工大 ltp 分詞
以上可以看出分詞的時間,為了方便比較進行如下操作:
分詞效果對比
結果為:
總結:
1. 時間上(不包括載入包的時間),對於相同的文字測試兩次,四個分詞器時間分別為:
jieba: 0.01699233055114746 1.8318662643432617
thulac : 10.118737936019897 8.155954599380493
fool : 2.227612018585205 2.892209053039551
HanLP : 3.6987085342407227 1.443108320236206
中科院 nlpir : 0.002994060516357422
哈工大 ltp_ : 0.09294390678405762
可以看出平均耗時最短的是中科院 nlpir 分詞,最長的是 thulac ,時間的差異還是比較大的。
2. 分詞準確率上,通過分詞效果操作可以看出
第一句:結婚的和尚未結婚的確實在干擾分詞啊
四個分詞器都表現良好,唯一不同的是 fool 將“干擾分詞”合為一個詞
第二句:汽水不如果汁好喝,重點在 “不如果”,“”不如“” 和“”如果“” 在中文中都可以成詞,但是在這個句子裡是不如 與果汁 正確分詞
jieba thulac fool HanLP
jieba 、 fool 、 HanLP 正確 thulac 錯誤
第三句: 小白痴痴地在門前等小黑回來,體現在人名的合理分詞上
正確是:
小白 / 痴痴地 / 在 / 門前 / 等 / 小黑 / 回來
jieba 、 fool 、 HanLP 正確, thulac 在兩處分詞錯誤: 小白 _np 痴痴 _a 地 _u 在 _p 門前 _s 等 _u 小 _a 黑回 _n 來 _f
第四句:是有關司法領域文字分詞
發現 HanLP 的分詞粒度比較大, fool 分詞粒度較小,導致 fool 分詞在上有較大的誤差。在人名識別上沒有太大的差異,在組織機構名上分詞,分詞的顆粒度有一些差異, Hanlp 在機構名的分詞上略勝一籌。
六種分詞器使用建議:
對命名實體識別要求較高的可以選擇 HanLP ,根據說明其訓練的語料比較多,載入了很多實體庫,通過測試在實體邊界的識別上有一定的優勢。
中科院的分詞,是學術界比較權威的,對比來看哈工大的分詞器也具有比較高的優勢。同時這兩款分詞器的安裝雖然不難,但比較 jieba 的安裝顯得繁瑣一點,程式碼遷移性會相對弱一點。哈工大分詞器 pyltp 安裝配置模型教程
結巴因為其安裝簡單,有三種模式和其他功能,支援語言廣泛,流行度比較高,且在操作檔案上有比較好的方法好用 python -m jieba news.txt > cut_result.txt
對於分詞器的其他功能就可以在文章開頭的連結檢視,比如說哈工大的 pyltp 在命名實體識別方面,可以輸出標註的詞向量,是非常方便基礎研究的命名實體的標註工作。
精簡文字 效果對比
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2636886/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Ansj與hanlp分詞工具對比HanLP分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- python 中文分詞包 jiebaPython中文分詞Jieba
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- Hanlp等七種優秀的開源中文分詞庫推薦HanLP中文分詞
- Python:Python 中 jieba 庫的使用(中文分詞)PythonJieba中文分詞
- [Python] 基於 jieba 的中文分詞總結PythonJieba中文分詞
- Nginx 和 Gunicorn 效能對比測試Nginx
- HanLP中文分詞Lucene外掛HanLP中文分詞
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- 對比測試工具平臺讓財務測試飛起來
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- 對比四款專業的測試工具,幫助你選出最適合自己的測試工具
- java分詞工具hanlp介紹Java分詞HanLP
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- 效能測試常用工具對比:Jmeter與LoadRunner的異同JMeter
- 介面工具使用對比(apipost、jmeter、postman、swagger等)APIJMeterPostmanSwagger
- 介面工具使用對比 (apipost、jmeter、postman、swagger 等)APIJMeterPostmanSwagger
- 由國產效能測試工具WEB壓力測試模擬能力對比讓我想到的Web
- cglib、orika、spring等bean copy工具效能測試和原理分析CGLibSpringBean
- 精準測試與開源工具Jacoco的覆蓋率能力對比開源工具
- python主流框架測試對比Python框架
- TDengine 和 InfluxDB 查詢效能對比測試報告UX測試報告
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 谷歌的時間序列預測的基礎模型TimesFM詳解和對比測試谷歌模型
- Laravel 中使用 PHP 分詞庫 (jieba) 和 (scws)LaravelPHP分詞Jieba
- jackson、fastjson、kryo、protostuff等序列化工具效能對比ASTJSON
- 【測評】軟體測試廠商Parasoft和SmartBear關鍵功能對比
- 中文分詞的探索,CRF(條件隨機場)和HMM(隱馬爾可夫模型)用於分詞的對比,以及中文分詞的評估中文分詞CRF條件隨機場HMM隱馬爾可夫模型
- Java實現:拋開jieba等工具,寫HMM+維特比演算法進行詞性標註JavaJiebaHMM維特比演算法詞性標註
- 關於c++ STL map 和 unordered_map 的效率的對比測試C++
- 敏捷測試VS傳統測試對比,6招玩轉敏捷測試!敏捷測試
- LightDB-Oracle和LightDB邏輯備份測試對比(十二)Oracle
- 滲透測試與自動化安全測試工具比較
- linux tinydrm vs fbtft 效能對比測試Linux
- Oracle和MySQL資料庫CTAS等操作對比OracleMySql資料庫
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法