elasticsearch實現基於拼音搜尋

huan1993發表於2023-01-15

原文網址 : https://www.cnblogs.com/huan1993/p/17053317.html

1、背景

一般情況下，有些搜尋需求是需要根據拼音和中文來搜尋的，那麼在elasticsearch中是如何來實現基於拼音來搜尋的呢？可以透過elasticsearch-analysis-pinyin分析器來實現。

2、安裝拼音分詞器

# 進入 es 的外掛目錄
cd /usr/local/es/elasticsearch-8.4.3/plugins
# 下載
wget https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v8.4.3/elasticsearch-analysis-pinyin-8.4.3.zip
# 新建目錄
mkdir analysis-pinyin
# 解壓
mv elasticsearch-analysis-pinyin-8.4.3.zip analysis-pinyin && cd analysis-pinyin && unzip elasticsearch-analysis-pinyin-8.4.3.zip && rm -rvf elasticsearch-analysis-pinyin-8.4.3.zip
cd ../ && chown -R es:es analysis-pinyin
# 啟動es
/usr/local/es/elasticsearch-8.4.3/bin/elasticsearch -d

3、拼音分詞器提供的功能

拼音分詞器提供如下功能
拼音分詞器提供的功能
每個選項的含義 可以透過文件中的例子來看懂。

4、簡單測試一下拼音分詞器

4.1 dsl

GET _analyze
{
  "text": ["我是中國人"],
  "analyzer": "pinyin"
}

"analyzer": "pinyin" 此處的pinyin是拼音分詞器自帶的。

4.2 執行結果

執行結果
從圖片上，實現了拼音分詞，但是這個不一定滿足我們的需求，比如沒有中文了，單個的拼音(比如：wo)是沒有什麼用的，需要對拼音分詞器進行定製化。

5、es中分詞器的組成

在elasticsearch中分詞器analyzer由如下三個部分組成：

character filters： 用於在tokenizer之前對文字進行處理。比如：刪除字元，替換字元等。
tokenizer： 將文字按照一定的規則分成獨立的token。即實現分詞功能。
tokenizer filter： 將tokenizer輸出的詞條做進一步的處理。比如： 同義詞處理，大小寫轉換、移除停用詞，拼音處理等。

處理流程

6、自定義一個分詞器實現拼音和中文的搜尋

需求： 自定義一個分詞器，即可以實現拼音搜尋，也可以實現中文搜尋。

1、建立mapping

PUT /test_pinyin
{
  "settings": {
    // 分析階段的設定
    "analysis": {
      // 分析器設定
      "analyzer": {
        // 自定義分析器，在tokenizer階段使用ik_max_word，在filter上使用py
        "custom_analyzer": {
          "tokenizer": "ik_max_word",
          "filter": "custom_pinyin"
        }
      },
      // 由於不滿足pinyin分詞器的預設設定，所以我們基於pinyin
      // 自定義了一個filter，叫py，其中修改了一些設定
      // 這些設定可以在pinyin分詞器官網找到
      "filter": {
        "custom_pinyin": {
          "type": "pinyin",
          // 不會這樣分：劉德華 > [liu, de, hua]
          "keep_full_pinyin": false,
          // 這樣分：劉德華 > [liudehua]
          "keep_joined_full_pinyin": true,
          // 保留原始token（即中文）
          "keep_original": true,
          // 設定first_letter結果的最大長度，預設值：16
          "limit_first_letter_length": 16,
          // 當啟用此選項時，將刪除重複項以儲存索引，例如：de的> de，預設值：false，注意：位置相關查詢可能受影響
          "remove_duplicated_term": true,
          // 如果非漢語字母是拼音，則將其拆分為單獨的拼音術語，預設值：true，如：liudehuaalibaba13zhuanghan- > liu，de，hua，a，li，ba，ba，13，zhuang，han，注意：keep_none_chinese和keep_none_chinese_together應首先啟用
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  // 定義mapping
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        // 建立倒排索引時使用的分詞器
        "analyzer": "custom_analyzer",
        // 搜尋時使用的分詞器，搜尋時不使用custom_analyzer是為了防止 詞語的拼音一樣，但是中文含義不一樣，導致搜尋錯誤。 比如： 科技 和 客機，拼音一樣，但是含義不一樣
        "search_analyzer": "ik_smart"
      }
    }
  }
}

注意：
可以看到我們的 name欄位使用的分詞器是 custom_analyzer，這個是我們在上一步定義的。但是搜尋的時候使用的是 ik_smart，這個為甚麼會這樣呢？
假設我們存在如下2個文字 科技強國和 這是一架客機，那麼科技和客機的拼音是不是就是一樣的。這個時候如果搜尋時使用的分詞器也是custom_analyzer那麼，搜尋科技的時候客機也會搜尋出來，這樣是不對的。因此在搜尋的時候中文就以中文搜，拼音就以拼音搜。

{
  "name": {
    "type": "text",
    "analyzer": "custom_analyzer",
    "search_analyzer": "ik_smart"
  }
}

當 analyzer和search_analyzer的值都是custom_analyzer，搜尋時也會透過拼音搜尋，這樣的結果可能就不是我們想要的。

2、插入資料

PUT /test_pinyin/_bulk
{"index":{"_id":1}}
{"name": "科技強國"}
{"index":{"_id":2}}
{"name": "這是一架客機"}
{"index":{"_id":3}}

3、搜尋資料

搜尋資料

7、參考文件

1、https://github.com/medcl/elasticsearch-analysis-pinyin/tree/master

elasticsearch之拼音搜尋
2022-01-14
Elasticsearch
基於Elasticsearch實現搜尋建議
2018-07-27
Elasticsearch
基於 Elasticsearch 的站內搜尋引擎實戰
2019-03-04
Elasticsearch
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
Elasticsearch 實現簡單搜尋
2019-03-07
Elasticsearch
Laravel + Elasticsearch 實現中文搜尋
2020-02-05
LaravelElasticsearch
直播平臺開發，基礎搜尋方式之拼音搜尋
2024-08-10
Elasticsearch搜尋功能的實現（五）-- 實戰
2023-04-18
Elasticsearch
使用 Laravel Scout + ElasticSearch 實現全文搜尋
2021-10-15
LaravelElasticsearch
基於Kafka和Elasticsearch構建實時站內搜尋功能的實踐
2023-03-27
KafkaElasticsearch
[WPF] 離線環境實現支援拼音模糊搜尋的AutoCompleteBox
2024-07-24
Elasticsearch常用搜尋
2020-08-27
Elasticsearch
Elasticsearch——全文搜尋
2019-02-18
Elasticsearch
elasticsearch搜尋商品
2021-07-15
Elasticsearch
Elasticsearch 向量搜尋
2022-04-16
Elasticsearch
基於 Mysql 實現一個簡易版搜尋引擎
2021-08-29
MySql
利用Elasticsearch實現地理位置、城市搜尋服務
2024-07-27
Elasticsearch
使用Elasticsearch快速實現社群/部落格文章全文搜尋
2018-04-17
Elasticsearch
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
Elasticsearch 為了搜尋
2021-03-06
Elasticsearch
[計算機視覺]基於內容的影像搜尋實現
2019-09-12
計算機視覺
python 手把手教你基於搜尋引擎實現文章查重
2020-09-13
Python
基於PostgreSQL實時干預搜尋排序實踐
2018-12-03
SQL排序
Elasticsearch（ES）的高階搜尋（DSL搜尋）（上篇）
2021-09-20
Elasticsearch
Elasticsearch（ES）的高階搜尋（DSL搜尋）（下篇）
2021-09-21
Elasticsearch
資料遷移方案 + Elasticsearch在綜合搜尋列表實現
2018-08-29
Elasticsearch
Elasticsearch 近實時搜尋的底層原理
2024-06-17
Elasticsearch
Elasticsearch學習系列三（搜尋案例實戰）
2022-06-22
Elasticsearch
elasticsearch(五)---分散式搜尋
2018-08-21
Elasticsearch分散式
認識搜尋引擎 Elasticsearch
2021-07-15
Elasticsearch
（1）分散式搜尋ElasticSearch認識ElasticSearch
2019-05-11
分散式Elasticsearch
分散式搜尋引擎Elasticsearch基礎入門學習
2023-05-10
分散式Elasticsearch
搜尋引擎ElasticSearch18_ElasticSearch簡介1
2024-05-23
Elasticsearch
[轉載] PHP 基於字典樹演算法實現搜尋聯想功能
2020-06-17
PHP演算法
Laravel 使用 Elasticsearch 全域性搜尋
2019-04-17
LaravelElasticsearch
【elasticsearch】搜尋過程詳解
2022-03-19
Elasticsearch
Elasticsearch搜尋資料彙總
2020-11-25
Elasticsearch
使用Node，Vue和ElasticSearch構建實時搜尋引擎
2019-02-16
VueElasticsearch