Elasticsearch IK分詞器

SpringBreeze發表於2021-08-18

原文網址 : https://www.cnblogs.com/dupengpeng/p/15155674.html

Elasticsearch分詞

Elasticsearch-IK分詞器

一、簡介

因為Elasticsearch中預設的標準分詞器(analyze)對中文分詞不是很友好，會將中文詞語拆分成一個一箇中文的漢字，所以引入中文分詞器-IK。

使用預設

二、安裝IK分詞器

1.先下載ik分詞器

https://github.com/medcl/elasticsearch-analysis-ik/releases

注意一定要下載和Elastic版本相同的IK分詞器

2.我們將ik分詞器上傳到我們的es的plugins/ik目錄下，ik資料夾需要我們自己建立

cd /usr/local/elasticsearch/plugins/ik/
unzip elasticsearch-analysis-ik-XX.zip 

# windos下安裝也是一樣的操作

3.重啟

重啟的時候在日誌中就可以看到關於IK分詞器已經被載入進去了

三、測試分詞器

1.ik_smart

會做最粗粒度的拆分，比如會將“我是中國人”拆分為我、是、中國人。

POST _analyze
{
  "analyzer": "ik_smart", 
  "text": "我是中國人"
}

2.ik_max_word

會將文字做最細粒度的拆分，比如會將“我是中國人”拆分為“我、是、中華、中國人、中國、國人

POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是中國人"
}

四、自定義詞庫

使用場景

在利用ik分詞的過程中，當ik的分詞規則不滿足我們的需求了，這個時候就可以利用ik的自定義詞庫進行匹配，比如最火的常用的網路用語；我們輸入喬碧羅殿下正常的情況下，是不會識別整個詞語的，返回的都是分開的。我們識別整個詞語就需要自定義詞庫

1、自定義詞庫方式一(新建dic檔案)

（1）到elasticsearch/plugins中尋找ik外掛所在的目錄

（2）在ik中的config檔案中新增詞庫

建立目錄    mkdir ciku
建立檔案    vim test.dic
#編輯test.dic 注意每個詞語一行

（3）修改ik配置

vim /**/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

（4）重啟ElasticSearch

2、通過Nginx配置自定義詞庫

（1）安裝好nginx，到nginx的html目錄下建立分詞檔案

vim fenci.txt
#每個詞語一行

（2）修改ik配置

vim /**/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

（3）重啟ElasticSearch

效果

我們輸入喬碧羅殿下正常的情況下，是不會識別整個詞語的，返回的都是分開的。當我們在詞庫檔案中寫上喬碧羅殿下就會返回下面的效果

#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
elasticsearch安裝和使用ik分詞器
2022-08-01
Elasticsearch分詞
ElasticSearch-IK分詞器和整合使用
2021-01-26
Elasticsearch分詞
ElasticSearch中使用ik分詞器進行實現分詞操作
2024-03-21
Elasticsearch分詞
IK 分詞器
2022-01-09
分詞
elasticsearch之ik分詞器和自定義詞庫實現
2024-06-13
Elasticsearch分詞
Elasticsearch學習系列一（部署和配置IK分詞器）
2022-06-18
Elasticsearch分詞
IK 分詞器外掛
2020-11-13
分詞
自己動手製作elasticsearch的ik分詞器的Docker映象
2022-08-06
Elasticsearch分詞Docker
ElasticSearch7.6.2在windows上如何配置ik分詞器與用法
2020-12-22
ElasticsearchWindows分詞
ElasticSearch7.3學習(十五)----中文分詞器(IK Analyzer)及自定義詞庫
2022-03-28
Elasticsearch中文分詞
Elasticsearch 分詞器
2021-02-08
Elasticsearch分詞
Helm3安裝帶有ik分詞的ElasticSearch
2022-07-13
分詞Elasticsearch
Elasticsearch使用系列-ES增刪查改基本操作+ik分詞
2022-01-25
Elasticsearch分詞
小白折騰伺服器（十）：docker 下安裝 Elasticsearch+ik 分詞外掛
2019-05-18
伺服器DockerElasticsearch分詞
如何在laradock中安裝ik分詞器
2021-07-06
分詞
Elasticsearch整合HanLP分詞器
2018-10-08
ElasticsearchHanLP分詞
ElasticSearch之ICU分詞器
2020-04-07
Elasticsearch分詞
ES[7.6.x]學習筆記（七）IK中文分詞器
2020-05-07
筆記中文分詞
FlinkSQL使用自定義UDTF函式行轉列-IK分詞器
2021-05-08
SQL函式分詞
elasticsearch教程--中文分詞器作用和使用
2019-06-12
Elasticsearch中文分詞
Elasticsearch（ES）分詞器的那些事兒
2021-09-19
Elasticsearch分詞
ElasticSearch IK熱詞自動熱更新原理與Golang實現
2021-10-15
ElasticsearchGolang
使用Docker快速安裝部署ES和Kibana並配置IK中文分詞器以及自定義分詞擴充詞庫
2020-10-28
Docker中文分詞
Solr：Slor初識（概述、Windows版本的安裝、新增IK分詞器）
2020-12-21
SolrWindows分詞
Lucene的IK分詞器學習，增加支援單個特殊符號搜尋
2024-06-11
分詞符號
Elasticsearch從入門到放棄：分詞器初印象
2020-06-29
Elasticsearch分詞
ElasticSearch7.3 學習之定製分詞器（Analyzer）
2022-03-22
Elasticsearch分詞
Elasticsearch 6.x 倒排索引與分詞
2018-08-19
Elasticsearch索引分詞
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
day88-ElasticSearch-分詞- 自定義擴充套件詞庫
2020-12-21
Elasticsearch分詞套件
剖析分詞器
2021-11-16
分詞
Maven編譯elasticsearch-analysis-ik報錯
2018-09-21
Maven編譯Elasticsearch
linux單機es7.8、kibana7.8加ik分詞部署詳細
2020-12-10
Linux分詞
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
ElasticSearch7.3 學習之倒排索引揭祕及初識分詞器(Analyzer)
2022-03-18
Elasticsearch索引分詞
HanLP-實詞分詞器詳解
2019-05-27
HanLP分詞
Elasticsearch 近義詞詞庫配置
2024-07-24
Elasticsearch