elasticsearch索引原理

Mr-Wanter發表於2019-03-07

原文網址 : https://blog.csdn.net/mr_wanter/article/details/88288504

多渠道簡單理解elasticsearch的索引原理：

正排索引

ID	內容
1	elasticsearch是最火爆的分散式搜尋引擎
2	java是世界上最好的語言
3	搜尋引擎是如何誕生的

倒排索引：將欄位內容進行分詞後以一下形式進行索引儲存

索引詞元	文件ids
elasticsearch	1
火爆	1
分散式	1
搜尋引擎	1，3
java	2
世界	2
最好	2
語言	2
如何	3
誕生	3

倒排列表：以"搜尋引擎"為例

文件ID	TF（詞頻）	position（位置）	offset（偏移量）
1	1	3	<21,25>
3	1	0	<0,4>

Elasticsearch分別為每個field都建立了一個倒排索引，elasticsearch, 火爆, 分散式, 搜尋引擎這些叫term，當有成千上萬的term的時候，es是如何快速找到對應的索引呢？

Elasticsearch為了能快速找到某個term，將所有的term排個序，二分法查詢term，logN的查詢效率，就像通過字典查詢一樣，這就是Term Dictionary。

B-Tree通過減少磁碟尋道次數來提高查詢效能，Elasticsearch也是採用同樣的思路，直接通過記憶體查詢term，不讀磁碟，但是如果term太多，term dictionary也會很大，放記憶體不現實，於是有了Term Index，就像字典裡的索引頁一樣，A開頭的有哪些term，分別在哪頁，可以理解term index是一顆樹。

這棵樹不會包含所有的term，它包含的是term的一些字首。通過term index可以快速地定位到term dictionary的某個offset，然後從這個位置再往後順序查詢。

所以term index不需要存下所有的term，而僅僅是他們的一些字首與Term Dictionary的block之間的對映關係，再結合FST(Finite State Transducers)的壓縮技術，可以使term index快取到記憶體中。從term index查到對應的term dictionary的block位置之後，再去磁碟上找term，大大減少了磁碟隨機讀的次數。

利用倒排索引，進行搜尋的話，假設現在有100萬條資料，拆分出來的詞語，假設有1000萬個，那麼在倒排索引中，就有1000萬行，我們並不需要搜尋1000萬次，直接在Term index中快速定位即可，這樣我們就可以找到這個搜尋詞對應的資料。

參考：

https://blog.csdn.net/sdksdk0/article/details/78469190

https://www.cnblogs.com/dreamroute/p/8484457.html

剖析 Elasticsearch 的索引原理
2019-05-13
Elasticsearch索引
Elasticsearch核心技術（四）：索引原理分析
2021-12-16
Elasticsearch索引
【Elasticsearch】Elasticsearch 索引模板
2020-10-02
Elasticsearch索引
ElasticSearch 索引 VS MySQL 索引
2020-10-09
Elasticsearch索引MySql
elasticsearch配置注入索引
2020-11-20
Elasticsearch索引
Elasticsearch 學習索引
2020-04-30
Elasticsearch索引
Elasticsearch（三）：索引查詢
2020-10-21
Elasticsearch索引
elasticsearch之多索引查詢
2021-12-31
Elasticsearch索引
elasticsearch如何設計索引
2021-02-19
Elasticsearch索引
使用Elasticsearch的動態索引和索引優化
2019-03-28
Elasticsearch索引優化
ElasticSearch 倒排索引（Inverted Index）| 什麼是倒排索引？
2020-04-07
Elasticsearch索引Index
Elasticsearch 索引容量管理實踐
2020-07-21
Elasticsearch索引
MySQL索引原理
2019-07-25
MySql索引
ElasticSearch分片互動過程(建立索引、刪除索引、查詢索引)
2020-11-14
Elasticsearch索引
python建立elasticsearch索引的探討
2018-11-12
PythonElasticsearch索引
Elasticsearch 7.x：2、索引管理
2019-01-07
Elasticsearch索引
教你如何在 elasticsearch 中重建索引
2018-05-15
Elasticsearch索引
elasticsearch(三)----索引建立與刪除
2020-09-26
Elasticsearch索引
Elasticsearch索引生命週期管理方案
2020-12-30
Elasticsearch索引
ElasticSearch效能原理拆解
2024-06-04
Elasticsearch
Elasticsearch之索引模板index template與索引別名index alias
2019-04-08
Elasticsearch索引Index
Elasticsearch 索引的對映配置詳解
2018-08-12
Elasticsearch索引
Elasticsearch ILM DSL 索引生命週期管理
2023-04-24
Elasticsearch索引
Elasticsearch——document相關原理
2019-02-17
Elasticsearch
elasticsearch高亮之highlight原理
2022-03-17
Elasticsearch
淺析InnoDB引擎的索引和索引原理
2021-10-15
索引
MySQL——索引實現原理
2018-10-30
MySql索引
資料庫索引原理
2020-11-04
資料庫索引
索引原理和優勢
2020-12-31
索引
Elasticsearch 6.x 倒排索引與分詞
2018-08-19
Elasticsearch索引分詞
Elasticsearch6.2.4-利用head外掛建立索引
2018-06-13
Elasticsearch索引
使用ELASTICSEARCH進行近實時索引 - bozho
2019-12-10
Elasticsearch索引
ElasticSearch 獲取es資訊以及索引操作
2018-03-29
Elasticsearch索引
Elasticsearch系列---生產叢集的索引管理
2021-09-09
Elasticsearch索引
掌握4種SQL索引型別，剖析索引原理
2023-10-23
SQL索引型別
《Elasticsearch技術解析與實戰》Chapter 2.1 Elasticsearch索引增刪改查
2019-04-17
ElasticsearchAPT索引
《Elasticsearch技術解析與實戰》Chapter 1.1：Elasticsearch入門和倒排索引
2019-04-12
ElasticsearchAPT索引
Elasticsearch系列---聚合查詢原理
2020-04-17
Elasticsearch

elasticsearch索引原理

相關文章