Elasticsearch 分頁查詢

狼爺發表於2021-04-05

原文網址 : https://www.cnblogs.com/powercto/p/14618147.html

Elasticsearch

前言

我們在實際工作中，有很多分頁的需求，商品分頁、訂單分頁等，在MySQL中我們可以使用limit，那麼在Elasticsearch中我們可以使用什麼呢？

ES 分頁搜尋一般有三種方案，from + size、search after、scroll api，這三種方案分別有自己的優缺點，下面將進行分別介紹。

使用的資料是kibana中的kibana_sample_data_flights。

from + size

這是ES分頁中最常用的一種方式，與MySQL類似，from指定起始位置，size指定返回的文件數。

GET kibana_sample_data_flights/_search
{
  "from": 10,
  "size": 2, 
  "query": {
    "match": {
      "DestWeather": "Sunny"
    }
  },
  "sort": [
    {
      "timestamp": {
        "order": "asc"
      }
    }
  ]
}

這個例子中查詢航班中，目的地的天氣是晴朗的，並且按時間進行排序。

使用簡單，且預設的深度分頁限制是1萬，from + size 大於 10000會報錯，可以通過index.max_result_window引數進行修改。

{
  "error": {
    "root_cause": [
      {
        "type": "query_phase_execution_exception",
        "reason": "Result window is too large, from + size must be less than or equal to: [10000] but was [10001]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level setting."
      }
    ],
    "type": "search_phase_execution_exception",
    "reason": "all shards failed",
    "phase": "query",
    "grouped": true,
    "failed_shards": [
      {
        "shard": 0,
        "index": "kibana_sample_data_flights",
        "node": "YRQNOSQqS-GgSo1TSzlC8A",
        "reason": {
          "type": "query_phase_execution_exception",
          "reason": "Result window is too large, from + size must be less than or equal to: [10000] but was [10001]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level setting."
        }
      }
    ]
  },
  "status": 500
}

這種分頁方式，在分散式的環境下的深度分頁是有效能問題的，一般不建議用這種方式做深度分頁，可以用下面將要介紹的兩種方式。

理解為什麼深度分頁是有問題的，我們可以假設在一個有 5 個主分片的索引中搜尋。當我們請求結果的第一頁（結果從 1 到 10 ），每一個分片產生前 10 的結果，並且返回給協調節點，協調節點對 50 個結果排序得到全部結果的前 10 個。

現在假設我們請求第 1000 頁，結果從 10001 到 10010 。所有都以相同的方式工作除了每個分片不得不產生前10010個結果以外。然後協調節點對全部 50050 個結果排序最後丟棄掉這些結果中的 50040 個結果。

可以看到，在分散式系統中，對結果排序的成本隨分頁的深度成指數上升。

search after

search after 利用實時有遊標來幫我們解決實時滾動的問題。第一次搜尋時需要指定 sort，並且保證值是唯一的，可以通過加入 _id 保證唯一性。

GET kibana_sample_data_flights/_search
{
  "size": 2, 
  "query": {
    "match": {
      "DestWeather": "Sunny"
    }
  },
  "sort": [
    {
      "timestamp": {
        "order": "asc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

在返回的結果中，最後一個文件有類似下面的資料，由於我們排序用的是兩個欄位，返回的是兩個值。

"sort" : [
  1614561419000,
  "6FxZJXgBE6QbUWetnarH"
]

第二次搜尋，帶上這個sort的資訊即可，如下

GET kibana_sample_data_flights/_search
{
  "size": 2,
  "query": {
    "match": {
      "DestWeather": "Sunny"
    }
  },
  "sort": [
    {
      "timestamp": {
        "order": "asc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ],
  "search_after": [
    1614561419000,
    "6FxZJXgBE6QbUWetnarH"
  ]
}

scroll api

建立一個快照，有新的資料寫入以後，無法被查到。每次查詢後，輸入上一次的 scroll_id。目前官方已經不推薦使用這個API了，使用search_after即可。

GET kibana_sample_data_flights/_search?scroll=1m
{
  "size": 2,
  "query": {
    "match": {
      "DestWeather": "Sunny"
    }
  },
  "sort": [
    {
      "timestamp": {
        "order": "asc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

在返回的資料中，有一個_scroll_id欄位，下次搜尋的時候帶上這個資料，並且使用下面的查詢語句。

POST _search/scroll
{
  "scroll" : "1m",
  "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAA6UWWVJRTk9TUXFTLUdnU28xVFN6bEM4QQ=="
}

上面的scroll指定搜尋上下文保留的時間，1m代表1分鐘，還有其他時間可以選擇，有d、h、m、s等，分別代表天、時、分鐘、秒。

搜尋上下文有過期自動刪除，但如果自己知道什麼時候該刪，可以自己手動刪除，減少資源佔用。

DELETE /_search/scroll
{
  "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAA6UWWVJRTk9TUXFTLUdnU28xVFN6bEM4QQ=="
}

總結

from + size 的優點是簡單，缺點是在深度分頁的場景下系統開銷比較大。

search after 可以實時高效的進行分頁查詢，但是它只能做下一頁這樣的查詢場景，不能隨機的指定頁數查詢。

scroll api 方案也很高效，但是它基於快照，不能用在實時性高的業務場景，且官方已不建議使用。

參考資料

elasticsearch查詢之大資料集分頁查詢
2022-02-08
Elasticsearch大資料
ElasticSearch - 分頁查詢方式二【scroll】滾動查詢（kibana、Java示例）
2020-10-20
ElasticsearchJava
elasticsearch查詢之大資料集分頁效能分析
2022-02-09
Elasticsearch大資料
NET 集合分頁查詢
2018-09-09
AntDesignBlazor示例——分頁查詢
2023-12-16
Blazor
MySQL的分頁查詢
2020-01-15
MySql
ThinkPhp框架：分頁查詢
2020-04-05
PHP框架
分頁查詢優化
2020-04-05
優化
Elasticsearch查詢
2018-12-01
Elasticsearch
MySQL分頁查詢優化
2020-10-13
MySql優化
indexdb實現分頁查詢
2022-01-16
Index
分庫分表後的分頁查詢
2021-04-25
MySQL——優化巢狀查詢和分頁查詢
2018-11-01
MySql優化巢狀
Oracle總結【SQL細節、多表查詢、分組查詢、分頁】
2018-03-06
OracleSQL
Elasticsearch複合查詢——boosting查詢
2021-11-17
Elasticsearch
Elasticsearch 高亮查詢
2019-01-24
Elasticsearch
ElasticSearch DSL 查詢
2021-02-23
Elasticsearch
SSH框架下的分頁查詢
2018-12-12
框架
菜品條件分頁查詢
2024-04-20
【記錄】SSH分頁查詢功能
2020-01-19
資料庫全表查詢之-分頁查詢優化
2020-12-31
資料庫優化
五分鐘學會Elasticsearch查詢代理設計
2020-06-11
Elasticsearch
SSM框架實現分頁查詢例子
2018-06-27
SSM框架
MySQL分優化之超大頁查詢
2020-11-12
MySql優化
Hibernate5.1+Sqlserver2000分頁查詢
2021-09-09
SQLServer
c# winform 實現分頁查詢
2020-12-11
C#ORM
（MySQL學習筆記）分頁查詢
2020-12-12
MySql筆記
elasticsearch的模糊查詢
2019-01-04
Elasticsearch
Elasticsearch 或並查詢
2019-01-24
Elasticsearch
Elasticsearch（三）：索引查詢
2020-10-21
Elasticsearch索引
elasticsearch之多索引查詢
2021-12-31
Elasticsearch索引
elasticsearch之exists查詢
2023-01-12
Elasticsearch
ElasticSearch的查詢（二）
2021-02-03
Elasticsearch
Elasticsearch中的Term查詢和全文查詢
2021-07-06
Elasticsearch
小書MybatisPlus第4篇-表格分頁與下拉分頁查詢
2020-07-15
MyBatis
關於 groupBy 分組查詢的分頁處理
2019-11-27
使用Mybatis-plus進行分頁查詢，沒有分頁效果，查詢的資料量超出每頁數量設定
2024-11-18
MyBatis
MySQL、Elasticsearch 深度分頁
2023-04-16
MySqlElasticsearch

Elasticsearch 分頁查詢

前言

from + size

search after

scroll api

總結

參考資料

相關文章