基於hanlp的es分詞外掛
摘要: elasticsearch是使用比較廣泛的分散式搜尋引擎,es提供了一個的單字分詞工具,還有一個分詞外掛ik使用比較廣泛,hanlp是一個自然語言處理包,能更好的根據上下文的語義,人名,地名,組織機構名等來切分詞
Elasticsearch
預設分詞
輸出:
IK分詞
輸出:
hanlp分詞
輸出:
ik分詞沒有根據句子的含義來分詞,hanlp能根據語義正確的切分出詞
安裝步驟:
1、進入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下載外掛並解壓到es的plugins目錄下,修改analysis-hanlp目錄下的hanlp.properties檔案,修改root的屬性,值為analysis-hanlp下的data
目錄的地址
2、修改es config目錄下的jvm.options檔案,最後一行新增
-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy
重啟 es
GET /_analyze?analyzer=hanlp-index&pretty=true
{
“text”:”張柏芝士蛋糕店”
}
測試是否安裝成功
analyzer有hanlp-index(索引模式)和hanlp-smart(智慧模式)
自定義詞典
修改 plugins/analysis-hanlp/data/dictionary/custom下的 我的詞典.txt檔案
格式遵從 [單詞] [詞性A] [A的頻次]
修改完後刪除同目錄下的 CustomDictionary.txt.bin檔案
重啟 es服務
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2649167/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- es 自定義分詞外掛分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- IK 分詞器外掛分詞
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- es筆記四之中文分詞外掛安裝與使用筆記中文分詞
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- HanLP-實詞分詞器詳解HanLP分詞
- java分詞工具hanlp介紹Java分詞HanLP
- HanLP分類模組的分詞器介紹HanLP分詞
- ES 入門 - 基於詞項的查詢
- Ansj與hanlp分詞工具對比HanLP分詞
- python呼叫hanlp分詞包手記PythonHanLP分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- Spring MVCD框架中呼叫HanLP分詞的方法SpringMVC框架HanLP分詞
- ES 筆記十六:基於詞項和基於全文的搜尋筆記
- 中文分詞工具之基於字標註法的分詞中文分詞
- HanLP分詞命名實體提取詳解HanLP分詞
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- Simple: SQLite3 中文結巴分詞外掛SQLite分詞
- 聊天富文字外掛,一個基於react的富文字外掛React
- 基於Ruby的Burpsuite外掛開發UI
- 基於 Rainbond 的 Pipeline(流水線)外掛AI
- Hanlp中使用純JAVA實現CRF分詞HanLPJavaCRF分詞
- Spark中分散式使用HanLP(1.7.0)分詞示例Spark分散式HanLP分詞
- NLP入門學習中關於分詞庫HanLP匯入使用教程分詞HanLP
- [Python] 基於 jieba 的中文分詞總結PythonJieba中文分詞
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- HanLP程式碼與詞典分離方案與流程HanLP
- android 基於dex的外掛化開發Android
- 基於Intellij 外掛開發指南IntelliJ
- Elasticsearch(ES)分詞器的那些事兒Elasticsearch分詞
- Hanlp分詞例項:Java實現TFIDF演算法HanLP分詞Java演算法
- mybatis generator外掛系列--分頁外掛MyBatis
- SSM(十四) 基於 annotation 的 http 防重外掛SSMHTTP