Ansj與hanlp分詞工具對比

adnb34g發表於2019-06-21

HanLP分詞

一、 Ansj

1、利用DicAnalysis可以自定義詞庫：

2、但是自定義詞庫存在侷限性，導致有些情況無效：

比如： “不好用“的正常分詞結果：“不好，用”。

（ 1）當自定義詞庫”好用“時，詞庫無效，分詞結果不變。

（ 2）當自定義詞庫

“不好用”時，分詞結果為：“不好用”，即此時自定義詞庫有效。

3、由於版本問題，可能DicAnalysis, ToAnalysis等類沒有序列化，導致讀取hdfs資料出錯

此時需要繼承序列化介面

1|case class myAnalysis() extends DicAnalysis with Serializable

2|val seg = new myAnalysis()

二、 HanLP

同樣可以通過 CustomDictionary自定義詞庫：

但是在統計分詞中，並不保證自定義詞典中的詞一定被切分出來，因此使用者可在理解後果的情況下通過

1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)強制生效

併發問題：

CustomDictionary是全域性變數，不能在各節點中更改，否則會出現併發錯誤。

但是 HanLP.segment(sentence)，只有一個引數，不能指定CustomDictionary，導致在各個excutors計算的時候全域性CustomDictionary無效。

由於 CustomDictionary是全域性變數，因此我採用一個方式：每個分割槽都對CustomDictionary加鎖並新增一次詞庫，效能影響較小：

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31524777/viewspace-2648324/，如需轉載，請註明出處，否則將追究法律責任。

HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
java分詞工具hanlp介紹
2019-07-03
Java分詞HanLP
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
HanLP程式碼與詞典分離方案與流程
2018-10-10
HanLP
中文分詞演算法工具hanlp原始碼解析
2019-03-13
中文分詞演算法HanLP原始碼
Elasticsearch整合HanLP分詞器
2018-10-08
ElasticsearchHanLP分詞
HanLP-實詞分詞器詳解
2019-05-27
HanLP分詞
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
python呼叫hanlp分詞包手記
2018-12-26
PythonHanLP分詞
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
自然語言處理工具HanLP-N最短路徑分詞
2019-05-17
自然語言處理HanLP分詞
HanLP分類模組的分詞器介紹
2019-06-14
HanLP分詞
HanLP分詞命名實體提取詳解
2019-01-11
HanLP分詞
基於hanlp的es分詞外掛
2019-07-01
HanLP分詞
MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解
2018-10-15
HanLP中文分詞
Hanlp中使用純JAVA實現CRF分詞
2018-10-19
HanLPJavaCRF分詞
Spring MVCD框架中呼叫HanLP分詞的方法
2019-07-10
SpringMVC框架HanLP分詞
Spark中分散式使用HanLP（1.7.0)分詞示例
2019-05-08
Spark分散式HanLP分詞
基於 HanLP 的 ES 中文分詞外掛
2018-12-23
HanLP中文分詞
空間分析：4-1.分詞模型hanLP簡介與安裝
2020-11-28
分詞模型HanLP
Hanlp在java中文分詞中的使用介紹
2018-11-30
HanLPJava中文分詞
Terraform與其他工具對比
2019-02-18
ORM
hanlp和jieba等六大中文分工具的測試對比
2019-02-25
HanLPJieba
Hanlp分詞例項：Java實現TFIDF演算法
2018-11-14
HanLP分詞Java演算法
開源自然語言處理工具包hanlp中CRF分詞實現詳解
2019-02-27
自然語言處理HanLPCRF分詞
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
hanlp原始碼解析之中文分詞演算法詳解
2018-11-07
HanLP原始碼中文分詞演算法
hanlp中文智慧分詞自動識別文字提取例項
2018-11-30
HanLP分詞
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Hanlp自然語言處理工具之詞法分析器
2019-04-10
HanLP自然語言處理詞法分析
自然語言處理工具hanlp自定義詞彙新增圖解
2019-01-27
自然語言處理HanLP圖解
自然語言處理工具hanlp定製使用者詞條
2019-05-20
自然語言處理HanLP
Hanlp分詞1.7版本在Spark中分散式使用記錄
2019-03-11
HanLP分詞Spark分散式
Hanlp等七種優秀的開源中文分詞庫推薦
2018-10-12
HanLP中文分詞
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
HanLP-停用詞表的使用示例
2019-05-22
HanLP
hanlp 載入遠端詞庫示例
2019-04-26
HanLP
Hanlp配置自定義詞典遇到的問題與解決方法
2019-06-17
HanLP

Ansj與hanlp分詞工具對比

相關文章