ElasticSearch7.3 學習之定製分詞器（Analyzer）

|舊市拾荒|發表於2022-03-22

原文網址 : https://www.cnblogs.com/xiaoyh/p/16024163.html

1、預設的分詞器

關於分詞器，前面的部落格已經有介紹了，連結：ElasticSearch7.3 學習之倒排索引揭祕及初識分詞器(Analyzer)。這裡就只介紹預設的分詞器standard analyzer

2、修改分詞器的設定

首先自定義一個分詞器es_std。啟用english停用詞token filter

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "es_std": {
          "type": "standard",
          "stopwords": "_english_"
        }
      }
    }
  }
}

接下來開始測試兩種不同的分詞器，首先是預設的分詞器

GET /my_index/_analyze
{
  "analyzer": "standard", 
  "text": "a dog is in the house"
}

返回結果

{
  "tokens" : [
    {
      "token" : "a",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "dog",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "is",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "in",
      "start_offset" : 9,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "the",
      "start_offset" : 12,
      "end_offset" : 15,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "house",
      "start_offset" : 16,
      "end_offset" : 21,
      "type" : "<ALPHANUM>",
      "position" : 5
    }
  ]
}

可以看到就是簡單的按單詞進行拆分，在接下來測試上面自定義的一個分詞器es_std

GET /my_index/_analyze
{
  "analyzer": "es_std",
  "text":"a dog is in the house"
}

{
  "tokens" : [
    {
      "token" : "dog",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "house",
      "start_offset" : 16,
      "end_offset" : 21,
      "type" : "<ALPHANUM>",
      "position" : 5
    }
  ]
}

可以看到結果只有兩個單詞了，把停用詞都給去掉了。

3、定製化自己的分詞器

首先刪除掉上面建立的索引

DELETE my_index

然後執行下面的語句。簡單說下下面的規則吧，首先去除html標籤，把&轉換成and，然後採用standard進行分詞，最後轉換成小寫字母及去掉停用詞a the，建議讀者好好看看，下面我也會對這個分詞器進行測試。

PUT /my_index
{
  "settings": {
    "analysis": {
      "char_filter": {
        "&_to_and": {
          "type": "mapping",
          "mappings": [
            "&=> and"
          ]
        }
      },
      "filter": {
        "my_stopwords": {
          "type": "stop",
          "stopwords": [
            "the",
            "a"
          ]
        }
      },
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "char_filter": [
            "html_strip",
            "&_to_and"
          ],
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "my_stopwords"
          ]
        }
      }
    }
  }
}

{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "my_index"
}

老規矩，測試這個分詞器

GET /my_index/_analyze
{
  "analyzer": "my_analyzer",
  "text": "tom&jerry are a friend in the house, <a>, HAHA!!"
}

結果如下：

{
  "tokens" : [
    {
      "token" : "tomandjerry",
      "start_offset" : 0,
      "end_offset" : 9,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "are",
      "start_offset" : 10,
      "end_offset" : 13,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "friend",
      "start_offset" : 16,
      "end_offset" : 22,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "in",
      "start_offset" : 23,
      "end_offset" : 25,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "house",
      "start_offset" : 30,
      "end_offset" : 35,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "haha",
      "start_offset" : 42,
      "end_offset" : 46,
      "type" : "<ALPHANUM>",
      "position" : 7
    }
  ]
}

最後我們可以在實際使用時設定某個欄位使用自定義分詞器，語法如下：

PUT /my_index/_mapping/
{
  "properties": {
    "content": {
      "type": "text",
      "analyzer": "my_analyzer"
    }
  }
}

ElasticSearch7.3 學習之倒排索引揭祕及初識分詞器(Analyzer)
2022-03-18
Elasticsearch索引分詞
ElasticSearch7.3學習(十五)----中文分詞器(IK Analyzer)及自定義詞庫
2022-03-28
Elasticsearch中文分詞
筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
62_索引管理_快速上機動手實戰修改分詞器以及定製自己的分詞器
2024-10-02
索引分詞
ES 筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
ElasticSearch之ICU分詞器
2020-04-07
Elasticsearch分詞
用Python實現詞法分析器（Lexical Analyzer）
2019-12-17
Python詞法分析
Elasticsearch學習系列一（部署和配置IK分詞器）
2022-06-18
Elasticsearch分詞
ElasticSearch7.3 學習之生產環境實時重建索引
2022-03-26
Elasticsearch索引
機器學習名詞
2024-09-27
機器學習
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
Java定時器之Timer學習二
2019-01-19
Java定時器
ElasticSearch7.3學習(二十八)----聚合實戰之電視案例
2022-05-25
Elasticsearch
ElasticSearch7.3 學習之Mapping核心資料型別及dynamic mapping
2022-03-19
ElasticsearchAPP資料型別
ES[7.6.x]學習筆記（七）IK中文分詞器
2020-05-07
筆記中文分詞
elasticsearch之ik分詞器和自定義詞庫實現
2024-06-13
Elasticsearch分詞
JS學習之Bom（window和定時器）
2019-01-10
JS定時器
IK 分詞器
2022-01-09
分詞
剖析分詞器
2021-11-16
分詞
Elasticsearch 分詞器
2021-02-08
Elasticsearch分詞
機器學習之資料集的劃分
2020-06-14
機器學習
Elasticsearch IK分詞器
2021-08-18
Elasticsearch分詞
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
Lucene的IK分詞器學習，增加支援單個特殊符號搜尋
2024-06-11
分詞符號
MongoDB學習之複製集
2021-12-08
MongoDB
機器學習之學習速率
2020-06-12
機器學習
HanLP-實詞分詞器詳解
2019-05-27
HanLP分詞
自己動手製作elasticsearch的ik分詞器的Docker映象
2022-08-06
Elasticsearch分詞Docker
【機器學習】--xgboost初始之程式碼實現分類
2018-06-18
機器學習
Elasticsearch整合HanLP分詞器
2018-10-08
ElasticsearchHanLP分詞
IK 分詞器外掛
2020-11-13
分詞
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
機器學習之學習曲線
2019-09-18
機器學習
機器學習線上手冊：像背託福單詞一樣學機器學習
2020-04-06
機器學習
ElasticSearch7.3學習(二十九)----聚合實戰之使用Java api實現電視案例
2022-05-28
ElasticsearchJavaAPI
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
ElasticSearch中使用ik分詞器進行實現分詞操作
2024-03-21
Elasticsearch分詞
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析

ElasticSearch7.3 學習之定製分詞器（Analyzer）

1、預設的分詞器

2、 修改分詞器的設定

3、定製化自己的分詞器

相關文章

2、修改分詞器的設定