Elasticsearch——全文搜尋

Dictator丶發表於2019-02-18

原文網址 : https://juejin.im/post/5c6ab6ab518825626037d921

Elasticsearch

1. 精準匹配與全文搜尋

1.1 精準匹配

exact value

2017-01-01，exact value，搜尋的時候，必須輸入2017-01-01，才能搜尋出來
如果你輸入一個01，是搜尋不出來的

1.2 全文搜尋

full text

縮寫 vs. 全程：cn vs. china
格式轉化：like liked likes
大小寫：Tom vs tom
同義詞：like vs love

例如：

2017-01-01，2017 01 01，搜尋2017，或者01，都可以搜尋出來
china，搜尋cn，也可以將china搜尋出來
likes，搜尋like，也可以將likes搜尋出來
Tom，搜尋tom，也可以將Tom搜尋出來
like，搜尋love，同義詞，也可以將like搜尋出來

就不是說單純的只是匹配完整的一個值，而是可以對值進行拆分詞語後（分詞）進行匹配，也可以通過縮寫、時態、大小寫、同義詞等進行匹配

2. 倒排索引

doc1：I konw my mom likes small dogs.

doc2：His mom likes dogs, so do I.

分詞，初步建立倒排索引：

Word	doc1	doc2
I	√	√
konw	√
my	√
mom	√	√
likes	√	√
small	√
dogs	√	√
His		√
so		√
do		√

如果我們想搜尋 mother like little dog，是不會有任何結果的。

這不是我們想要的結果，為在我們看來，mother和mom有區別嗎？同義詞，都是媽媽的意思。like和liked有區別嗎？沒有，都是喜歡的意思，只不過一個是現在時，一個是過去時。little和small有區別嗎？同義詞，都是小小的。dog和dogs有區別嗎？狗，只不過一個是單數，一個是複數。

實際上，es在建立倒排索引的時候進行了 normalization 操作，對拆分出的各個單詞進行相應的處理，以提升後面搜尋的時候能夠搜尋到相關聯的文件的概率。
比如，時態的轉換，單複數的轉換，同義詞的轉換，大小寫的轉換。

3. 分詞器

3.1 分詞器的作用

切分詞語
進行 normalization（提示recall召回率）
給你一段句子，然後將這段句子拆分成一個一個的單個的單詞，同時對每個單詞進行normalization（時態轉換，單複數轉換）。

recall 即召回率，就是在搜尋的時候，增加能夠搜尋到的結果的數量。

分析器包含三部分：

character filter：在一段文字進行分詞之前，先進行預處理，比如說最常見的就是，過濾html標籤（hello --> hello），& --> and（I&you --> I and you）
tokenizer：分詞，hello you and me --> hello, you, and, me
token filter：lowercase，stop word，synonymom，dogs --> dog，liked --> like，Tom --> tom，a/the/an --> 幹掉，mother --> mom，small --> little

3.2 內建分詞器介紹

Set the shape to semi-transparent by calling set_trans(5)

standard analyzer s

set, the, shape, to, semi, transparent, by, calling, set_trans, 5（預設的是standard）
simple analyzer

set, the, shape, to, semi, transparent, by, calling, set, trans
whitespace analyzer

Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
language analyzer（特定的語言的分詞器，比如說，english，英語分詞器）

set, shape, semi, transpar, call, set_tran, 5

3.3 測試分詞器

語法：

 1GET /_analyze
 2{
 3  "analyzer": "standard",
 4  "text": "Text to analyze"
 5}
 6返回：
 7{
 8  "tokens": [
 9    {
10      "token": "text",
11      "start_offset": 0,
12      "end_offset": 4,
13      "type": "<ALPHANUM>",
14      "position": 0
15    },
16    {
17      "token": "to",
18      "start_offset": 5,
19      "end_offset": 7,
20      "type": "<ALPHANUM>",
21      "position": 1
22    },
23    {
24      "token": "analyze",
25      "start_offset": 8,
26      "end_offset": 15,
27      "type": "<ALPHANUM>",
28      "position": 2
29    }
30  ]
31}
複製程式碼

ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
使用 Laravel Scout + ElasticSearch 實現全文搜尋
2021-10-15
LaravelElasticsearch
Elasticsearch 的配置與使用，為了全文搜尋
2018-04-19
Elasticsearch
Laravel5.5 使用 Elasticsearch 做引擎，scout 全文搜尋
2018-11-27
LaravelElasticsearch
ES(Elasticsearch)支援PB級全文搜尋引擎入門教程
2019-01-23
Elasticsearch
使用Elasticsearch快速實現社群/部落格文章全文搜尋
2018-04-17
Elasticsearch
Laravel xunsearch 全文搜尋
2019-02-16
Laravel
sphinx 全文搜尋引擎
2019-02-16
使用 Docker 和 Elasticsearch 構建一個全文搜尋應用程式
2022-11-27
DockerElasticsearch
Elasticsearch常用搜尋
2020-08-27
Elasticsearch
elasticsearch搜尋商品
2021-07-15
Elasticsearch
Elasticsearch 向量搜尋
2022-04-16
Elasticsearch
elasticsearch之拼音搜尋
2022-01-14
Elasticsearch
Elasticsearch 為了搜尋
2021-03-06
Elasticsearch
SQL Server 全文搜尋功能、全文索引方式介紹
2019-01-30
SQLServer索引
Elasticsearch（ES）的高階搜尋（DSL搜尋）（上篇）
2021-09-20
Elasticsearch
Elasticsearch（ES）的高階搜尋（DSL搜尋）（下篇）
2021-09-21
Elasticsearch
elasticsearch(五)---分散式搜尋
2018-08-21
Elasticsearch分散式
認識搜尋引擎 Elasticsearch
2021-07-15
Elasticsearch
18. 使用MySQL之全文字搜尋
2024-11-05
MySql
（1）分散式搜尋ElasticSearch認識ElasticSearch
2019-05-11
分散式Elasticsearch
搜尋引擎ElasticSearch18_ElasticSearch簡介1
2024-05-23
Elasticsearch
IKA全文搜尋工具-桌面版（原創）
2020-11-21
Elasticsearch 實現簡單搜尋
2019-03-07
Elasticsearch
Laravel 使用 Elasticsearch 全域性搜尋
2019-04-17
LaravelElasticsearch
Laravel + Elasticsearch 實現中文搜尋
2020-02-05
LaravelElasticsearch
【elasticsearch】搜尋過程詳解
2022-03-19
Elasticsearch
Elasticsearch搜尋資料彙總
2020-11-25
Elasticsearch
Redis 也支援全文搜尋？這也太強了
2023-12-13
Redis
ElasticSearch 簡單的搜尋聚合分析
2018-04-16
Elasticsearch
elasticsearch實現基於拼音搜尋
2023-01-15
Elasticsearch
Elasticsearch核心技術（五）：搜尋API和搜尋執行機制
2021-12-28
ElasticsearchAPI
開放搜尋開源相容版，支援Elasticsearch做搜尋召回引擎
2021-09-25
Elasticsearch
搜尋引擎ElasticSearch18_ElasticSearch程式設計操作5
2024-05-27
Elasticsearch程式設計
使用 Postgres 的全文搜尋構建可擴充套件的事件驅動搜尋架構
2022-11-24
套件事件架構
Laravel 下 TNTSearch+jieba-PHP 實現中文全文搜尋
2019-04-17
LaravelJiebaPHP
Spring Boot整合Postgres實現輕量級全文搜尋
2024-02-19
Spring Boot