Ansj與hanlp分詞工具對比
一、 Ansj
1、利用DicAnalysis可以自定義詞庫:
2、但是自定義詞庫存在侷限性,導致有些情況無效:
比如: “不好用“的正常分詞結果:“不好,用”。
( 1)當自定義詞庫”好用“時,詞庫無效,分詞結果不變。
( 2)當自定義詞庫
“不好用”時,分詞結果為:“不好用”,即此時自定義詞庫有效。
3、由於版本問題,可能DicAnalysis, ToAnalysis等類沒有序列化,導致讀取hdfs資料出錯
此時需要繼承序列化介面
1|case class myAnalysis() extends DicAnalysis with Serializable
2|val seg = new myAnalysis()
二、 HanLP
同樣可以透過 CustomDictionary自定義詞庫:
但是在統計分詞中,並不保證自定義詞典中的詞一定被切分出來,因此使用者可在理解後果的情況下透過
1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)強制生效
併發問題:
CustomDictionary是全域性變數,不能在各節點中更改,否則會出現併發錯誤。
但是 HanLP.segment(sentence),只有一個引數,不能指定CustomDictionary,導致在各個excutors計算的時候全域性CustomDictionary無效。
由於 CustomDictionary是全域性變數,因此我採用一個方式:每個分割槽都對CustomDictionary加鎖並新增一次詞庫,效能影響較小:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2648324/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- java分詞工具hanlp介紹Java分詞HanLP
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- HanLP程式碼與詞典分離方案與流程HanLP
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- HanLP-實詞分詞器詳解HanLP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- HanLP分類模組的分詞器介紹HanLP分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 自然語言處理工具HanLP-N最短路徑分詞自然語言處理HanLP分詞
- 基於hanlp的es分詞外掛HanLP分詞
- HanLP分詞命名實體提取詳解HanLP分詞
- python呼叫hanlp分詞包手記PythonHanLP分詞
- Spark中分散式使用HanLP(1.7.0)分詞示例Spark分散式HanLP分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- Hanlp中使用純JAVA實現CRF分詞HanLPJavaCRF分詞
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- 空間分析:4-1.分詞模型hanLP簡介與安裝分詞模型HanLP
- Spring MVCD框架中呼叫HanLP分詞的方法SpringMVC框架HanLP分詞
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- 11個Java開源中文分詞器使用方法和分詞效果對比Java中文分詞
- Terraform與其他工具對比ORM
- hanlp和jieba等六大中文分工具的測試對比HanLPJieba
- 開源自然語言處理工具包hanlp中CRF分詞實現詳解自然語言處理HanLPCRF分詞
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- hanlp中文智慧分詞自動識別文字提取例項HanLP分詞
- Hanlp分詞例項:Java實現TFIDF演算法HanLP分詞Java演算法
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- Hanlp自然語言處理工具之詞法分析器HanLP自然語言處理詞法分析
- 自然語言處理工具hanlp定製使用者詞條自然語言處理HanLP
- Hanlp分詞1.7版本在Spark中分散式使用記錄HanLP分詞Spark分散式
- Hanlp等七種優秀的開源中文分詞庫推薦HanLP中文分詞
- HanLP-停用詞表的使用示例HanLP
- hanlp 載入遠端詞庫示例HanLP
- 中文分詞工具之基於字標註法的分詞中文分詞
- NLP入門學習中關於分詞庫HanLP匯入使用教程分詞HanLP