ES 筆記三十四：剖析分散式查詢及相關性演算法

CrazyZard發表於2019-12-22

原文網址 : https://learnku.com/articles/38476

筆記分散式演算法

ES的搜尋，會分兩階段進行
- 第一階段 - QUERY
- 第二階段 - Fetch
Query - then - Fetch

使用者發出搜尋請求到ES節點。節點收到請求後，會以Coordinating 節點的身份，在6個主副分片中隨機選擇3個分片，傳送查詢請求
被選中的分片執行查詢，進行排序。然後，每個分片都會返回From + Size 個排序後的文件Id 和排序值給Coordinating節點

ES 筆記三十四：剖析分散式查詢及相關性演算法

Coordinating Node 會將Query階段，從每個分片獲取的排序後的文件Id列表，重新進行排序。選取From 到 From + Size個文件的Id
以 multi get請求的方式，到相應的分片獲取詳細的文件資料

效能問題
- 每個分片上需要查的文件個數 = from + size
- 最終協調節點需要處理：number_of_shard * ( from + size)
- 深度分頁
相關性算分
- 每個分片都基於自己的分片上的資料進行相關度計算。這會導致打分偏離的情況，特別是資料量很少時，如果文件總數很好的情況下，如果主分片大於1，主分片越多，相關性算分會越不準。

資料量不大的時候，可以將主分片數設定為1
- 當資料量足夠大時候，只要保證文件均勻分散在各個分片上，結果一般就不會出現偏差
使用 DFS Query Then Fetch
- 搜尋的URL 中指定引數 "_search?search_type=dfs_query_then_fetch"
- 到每個分片把各分片的詞頻和文件頻率進行蒐集，然後完整的進行一次相關性算分，消耗更加多的CPU和記憶體，執行效能低下，一般不建議使用

寫入3條記錄 "Good" / "Good moring" / "good morning everyone"
使用1個主分片測試，Good應該排在第一，Good DF數值應該是3
和20個主分片測試
當多個主分片時，3個文件的算分都一樣。可以通過Explain API進行分析
在3個主分片上執行DFS Query Then Fetch ，結果和一個分片上一致

DELETE message
PUT message
{
  "settings": {
    "number_of_shards": 20
  }
}
GET message
POST message/_doc?routing=1
{
  "content":"good"
}
POST message/_doc?routing=2
{
  "content":"good morning"
}
POST message/_doc?routing=3
{
  "content":"good morning everyone"
}
POST message/_search
{
  "explain": true,
  "query": {
    "match_all": {}
  }
}

POST message/_search
{
  "explain": true,
  "query": {
    "term": {
      "content": {
        "value": "good"
      }
    }
  }
}

POST message/_search?search_type=dfs_query_then_fetch
{
  "query": {
    "term": {
      "content": {
        "value": "good"
      }
    }
  }
}

快樂就是解決一個又一個的問題！

CURL查詢ES相關
2021-02-05
Django筆記十五之in查詢及date日期相關過濾操作
2023-04-03
Django筆記
ES 筆記十八：搜尋的相關性算分
2019-11-07
筆記
es 筆記二之基礎查詢
2023-04-12
筆記
ES 筆記三十二：文件分散式儲存
2019-12-18
筆記分散式
深入剖析分散式一致性共識演算法
2021-02-17
分散式演算法
ES[7.6.x]學習筆記（十）聚合查詢
2020-05-26
筆記
es筆記五之term-level的查詢操作
2023-04-16
筆記
Kafka分散式查詢引擎
2020-11-30
Kafka分散式
MySQL 相關子查詢
2022-12-26
MySql
ES6 函式相關
2019-09-04
函式
Python連線es筆記二之查詢方式彙總
2023-04-18
Python筆記
什麼是SQL 語句中相關子查詢與非相關子查詢
2024-04-28
SQL
MySQL 之慢查詢相關操作
2021-01-20
MySql
ES 筆記十九：Query & Filtering 與多字串多欄位查詢
2019-11-10
筆記Filter字串
ES 筆記二十：單字串多欄位查詢：Dis Max Query
2019-11-11
筆記字串
ES查詢之查詢屬性過濾、結果高亮顯示
2024-04-09
ThinkPHP5.0 使用 model 關聯查詢筆記
2019-08-16
PHP筆記
php相關筆記
2018-10-12
PHP筆記
路由相關筆記
2021-03-26
路由筆記
殺會話之查詢鎖表的物件及相關操作
2018-05-30
會話物件
Linux 查詢日誌相關命令
2020-01-08
Linux
sql-server相關子查詢
2020-12-29
SQLServer
ES 筆記二十一：單字串多欄位查詢: Multi Match
2019-11-14
筆記字串
物件及函式相關
2020-11-04
物件函式
深入剖析分散式事務一致性
2021-12-13
分散式
RestHighLevelClient查詢es
2019-06-01
RESTclient
六，陣列筆記及相關練習題大全
2024-10-20
陣列筆記
Citus 分散式 PostgreSQL 叢集 - SQL Reference(查詢分散式表 SQL)
2022-03-30
分散式SQL
倒排索引及ES相關概念對比MySQL
2024-10-16
索引MySql
dash + fac 相關筆記
2024-12-06
筆記
docker相關概念筆記
2021-03-02
Docker筆記
es筆記三之term，match，match_phrase 等查詢方法介紹
2023-05-20
筆記
Django筆記三十四之分頁操作
2023-04-30
Django筆記
MYSQL學習筆記25: 多表查詢(子查詢)[標量子查詢,列子查詢]
2024-03-10
MySql筆記
GlusterFS分散式儲存叢集部署記錄-相關補充
2018-04-10
分散式
MYSQL學習筆記26: 多表查詢|子查詢
2024-03-14
MySql筆記
關於Solidity指令碼相關環境配置及指令碼資料的查詢
2024-06-06
Solid指令碼

ES 筆記三十四：剖析分散式查詢及相關性演算法

相關文章