ES 筆記三十六：分頁與遍歷

CrazyZard發表於2019-12-25

原文網址 : https://learnku.com/articles/38562

預設情況下，查詢按照相關度算分排序，返回前10條記錄
容易理解的分頁方案
- From ：開始位置
- Size：期望獲取文件的總數

ES 天生就是分散式，查詢資訊，但是資料分別儲存在多個分片，多臺機器，ES天生就需要滿足排序的需要（按照相關性算分）
當一個查詢：From = 990 ，Size =10
- 會在每個分片上先獲取1000個文件。然後，通過Coordinating Node 聚合所有結果。最後在通過排序選取前1000個文件
- 頁數越深，佔用內容越多。為了避免深度分頁帶來的記憶體開銷。ES有個設定，預設限定到10000個文件

ES 筆記三十六：分頁與遍歷

POST tmdb/_search
{
  "from": 10000,
  "size": 1,
  "query": {
    "match_all": {}
  }
}
//

避免深度分頁的效能問題，可以實時獲取下一頁文件資訊
- 不支援指定頁數（From）
- 不能往下翻
第一步搜尋需要指定sort，並且保證值是唯一的（可以通過加入_id保證唯一性）

然後使用上一次，最後一個文件的sort值進行查詢

POST users/_doc
{"name":"user1","age":10}
POST users/_doc
{"name":"user2","age":11}
POST users/_doc
{"name":"user2","age":12}
POST users/_doc
{"name":"user2","age":13}
POST users/_count
POST users/_search
{
"size": 1,
"query": {
    "match_all": {}
},
"sort": [
    {"age": "desc"} ,
    {"_id": "asc"}    
]
}
//返回
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
  "value" : 5,
  "relation" : "eq"
},
"max_score" : null,
"hits" : [
  {
    "_index" : "users",
    "_type" : "_doc",
    "_id" : "I5aMPW8Bb23XqE-8Pu1n",
    "_score" : null,
    "_source" : {
      "name" : "user2",
      "age" : 13
    },
    "sort" : [
      13,
      "I5aMPW8Bb23XqE-8Pu1n"
    ]
  }
]
}
}
POST users/_search
{
"size": 1,
"query": {
    "match_all": {}
},
"search_after":
     [
      10,
      "H5aMPW8Bb23XqE-8IO1c"
    ],
"sort": [
    {"age": "desc"} ,
    {"_id": "asc"}    
]
}

假設Size是10
當查詢990 -100
通過唯一排序值定位，將每次要處理的文件都控制在10

建立一個快照，有新的資料寫入以後，無法被查詢

每次查詢後，輸入上一次的Sroll Id

DELETE users
POST users/_doc
{"name":"user1","age":10}
POST users/_doc
{"name":"user2","age":20}
POST users/_doc
{"name":"user3","age":30}
POST users/_doc
{"name":"user4","age":40}
POST /users/_search?scroll=5m
{
"size": 1,
"query": {
    "match_all" : {
    }
}
}
POST /_search/scroll
{
"scroll" : "1m",
"scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAf3oEWQlQzZnpzdzlRdEdIUDFiRndaQU5BZw=="
}

Regular
- 需要實時獲取頂部的部分文件。例如查詢最新的訂單
Scorll
- 需要全部文件，例如匯出全部資料
Pagination
- From 和 Size
- 如何需要深度分頁，則選用Search After

快樂就是解決一個又一個的問題！

[文件教程]首頁分類遍歷
2020-04-04
遍歷 ES 節點校驗分詞（qbit）
2022-06-22
分詞
ES6遍歷物件
2019-02-17
物件
ES6 map()遍歷、filter()篩選--隨記
2019-07-16
Filter
二叉樹的遍歷筆記
2018-07-19
二叉樹筆記
【筆記】jQuery原始碼（節點遍歷）
2018-03-25
筆記jQuery原始碼
es6 Iterator遍歷器
2018-12-05
JS筆記(2) JS中的迴圈遍歷
2019-04-15
JS筆記
ES 分頁方案
2021-04-08
記錄遍歷方法
2018-07-11
es筆記四之中文分詞外掛安裝與使用
2023-04-14
筆記中文分詞
es筆記一之es安裝與介紹
2023-05-18
筆記
Python字典的遍歷,包括key遍歷/value遍歷/item遍歷/
2020-12-07
Python
ES 筆記二十二：多語言及中文分詞與檢索
2019-11-17
筆記中文分詞
資料結構學習筆記-先序遍歷森林
2024-05-12
資料結構筆記
刷題筆記：樹的前序、中序、後序遍歷
2020-10-31
筆記
前端筆記之jQuery（下）事件&節點操作&淨位置&拖拽&頁面捲動值&遍歷JSON
2019-04-02
前端筆記jQuery事件JSON
ES筆記
2019-04-03
筆記
Kotlin---集合與遍歷
2018-11-01
Kotlin
Java開發筆記（三十六）字串的常用方法
2018-12-12
Java筆記字串
ES 筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
【JavaScript實用技巧（一）】迴圈遍歷與跳出迴圈遍歷
2021-10-26
JavaScript
ES9的新特性:非同步遍歷Async iteration
2021-04-15
非同步
Mybatis筆記03---ResultMap及分頁
2020-10-09
MyBatis筆記
Django學習筆記（12）——分頁功能
2019-05-27
Django筆記
（MySQL學習筆記）分頁查詢
2020-12-12
MySql筆記
JavaScript 遍歷、列舉與迭代
2018-11-26
JavaScript
puppeteer 頁面爬取例項（元素遍歷）
2018-12-07
ES 筆記十八：搜尋的相關性算分
2019-11-07
筆記
js的map遍歷和array遍歷
2018-11-15
JS
es6筆記
2020-02-05
筆記
7-1 根據後序和中序遍歷輸出先序遍歷（25 分）
2018-11-01
ES 筆記四十五： Ingest Pipeline 與 Painless Script
2020-01-15
筆記AI
ES 筆記四：文件的基本 CRUD 與批量操作
2019-10-13
筆記
速記圖的遍歷（DFS和BFS）
2020-12-22
ES6--ES12筆記整理（1）
2021-11-18
筆記
遍歷 FlowDocument
2024-04-26
Linuxshell遍歷
2018-04-19
Linux

ES 筆記三十六：分頁與遍歷

相關文章