上億資料怎麼玩深度分頁？相容MySQL + ES + MongoDB

Kerwin發表於2020-07-15

原文網址 : https://segmentfault.com/a/1190000023248982

MySqlMongoDB

面試題 & 真實經歷

面試題：在資料量很大的情況下，怎麼實現深度分頁？

大家在面試時，或者準備面試中可能會遇到上述的問題，大多的回答基本上是分庫分表建索引，這是一種很標準的正確回答，但現實總是很骨感，所以面試官一般會追問你一句，現在工期不足，人員不足，該怎麼實現深度分頁？

這個時候沒有實際經驗的同學基本麻爪，So，請聽我娓娓道來。

慘痛的教訓

首先必須明確一點：深度分頁可以做，但是深度隨機跳頁絕對需要禁止。

上一張圖：

你們猜，我點一下第142360頁，服務會不會爆炸？

像MySQL，MongoDB資料庫還好，本身就是專業的資料庫，處理的不好，最多就是慢，但如果涉及到ES，性質就不一樣了，我們不得不利用 SearchAfter Api，去迴圈獲取資料，這就牽扯到記憶體佔用的問題，如果當時程式碼寫的不優雅，直接就可能導致記憶體溢位。

為什麼不能允許隨機深度跳頁

從技術的角度淺顯的聊一聊為什麼不能允許隨機深度跳頁，或者說為什麼不建議深度分頁

MySQL

分頁的基本原理：

SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;

LIMIT 10000 , 20的意思掃描滿足條件的10020行，扔掉前面的10000行，返回最後的20行。如果是LIMIT 1000000 , 100，需要掃描1000100 行，在一個高併發的應用裡，每次查詢需要掃描超過100W行，不炸才怪。

MongoDB

分頁的基本原理：

db.t_data.find().limit(5).skip(5);

同樣的，隨著頁碼的增大，skip 跳過的條目也會隨之變大，而這個操作是通過 cursor 的迭代器來實現的，對於cpu的消耗會非常明顯，當頁碼非常大時且頻繁時，必然爆炸。

ElasticSearch

從業務的角度來說，ElasticSearch不是典型的資料庫，它是一個搜尋引擎，如果在篩選條件下沒有搜尋出想要的資料，繼續深度分頁也不會找到想要的資料，退一步講，假如我們把ES作為資料庫來使用進行查詢，在進行分頁的時候一定會遇到max_result_window 的限制，看到沒，官方都告訴你最大偏移量限制是一萬。

查詢流程：

如查詢第501頁，每頁10條，客戶端傳送請求到某節點
此節點將資料廣播到各個分片，各分片各自查詢前 5010 條資料
查詢結果返回至該節點，然後對資料進行整合，取出前 5010 條資料
返回給客戶端

由此可以看出為什麼要限制偏移量，另外，如果使用 Search After 這種滾動式API進行深度跳頁查詢，也是一樣需要每次滾動幾千條，可能一共需要滾動上百萬，千萬條資料，就為了最後的20條資料，效率可想而知。

再次和產品對線

俗話說的好，技術解決不了的問題，就由業務來解決！

在實習的時候信了產品的邪，必須實現深度分頁 + 跳頁，如今必須撥亂反正，業務上必須有如下更改：

儘可能的增加預設的篩選條件，如：時間週期，目的是為了減少資料量的展示
修改跳頁的展現方式，改為滾動顯示，或小範圍跳頁

滾動顯示參考圖：

小規模跳頁參考圖：

通用解決方案

短時間內快速解決的方案主要是以下幾點：

必備：對排序欄位，篩選條件務必設定好索引
核心：利用小範圍頁碼的已知資料，或者滾動載入的已知資料，減少偏移量
額外：如果遇到不好處理的情況，也可以獲取多餘的資料，進行一定的擷取，效能影響並不大

MySQL

原分頁SQL：

# 第一頁
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20;

# 第N頁
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;

通過上下文關係，改寫為：

# XXXX 代表已知的資料
SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;

在沒內鬼，來點乾貨！SQL優化和診斷一文中提到過，LIMIT會在滿足條件下停止查詢，因此該方案的掃描總量會急劇減少，效率提升Max！

ES

方案和MySQL相同，此時我們就可以隨用所欲的使用 FROM-TO Api，而且不用考慮最大限制的問題。

MongoDB

方案基本類似，基本程式碼如下：

相關效能測試：

如果非要深度隨機跳頁

如果你沒有槓過產品經理，又該怎麼辦呢，沒關係，還有一絲絲的機會。

在 SQL優化一文中還提到過MySQL深度分頁的處理技巧，程式碼如下：

# 反例（耗時129.570s）
select * from task_result LIMIT 20000000, 10;

# 正例（耗時5.114s）
SELECT a.* FROM task_result a, (select id from task_result LIMIT 20000000, 10) b where a.id = b.id;

# 說明
# task_result表為生產環境的一個表，總資料量為3400萬，id為主鍵，偏移量達到2000萬

該方案的核心邏輯即基於聚簇索引，在不通過回表的情況下，快速拿到指定偏移量資料的主鍵ID，然後利用聚簇索引進行回表查詢，此時總量僅為10條，效率很高。

因此我們在處理MySQL，ES，MongoDB時，也可以採用一樣的辦法：

限制獲取的欄位，只通過篩選條件，深度分頁獲取主鍵ID
通過主鍵ID定向查詢需要的資料

瑕疵：當偏移量非常大時，耗時較長，如文中的 5s

最後

參考文章：MongoDB中文社群

感謝 @程大設計師為我傾情設計的二維碼?

如果覺得對你有用的話，不要忘記點個贊啊~

深度分頁，我都是這麼玩的
2022-02-20
MySQL、Elasticsearch 深度分頁
2023-04-16
MySqlElasticsearch
海量資料的分頁怎麼破？
2019-07-26
報表連 MongoDB，資料量大報表慢，怎麼做分頁？
2020-06-23
MongoDB
百億級資料分表後怎麼分頁查詢？
2020-11-09
百億級資料分庫分表後怎麼分頁查詢？
2022-12-05
PHP 原生操作 Mysql 分頁資料案例
2020-11-13
PHPMySql
ES 分頁方案
2021-04-08
mongodb怎麼手動建立資料庫
2021-09-11
MongoDB資料庫
MongoDB 的分頁（Pagination）
2024-01-17
MongoDB
ES同步Mysql資料庫（包括出現問題怎麼處理哦）
2020-10-12
MySql資料庫
在分頁物件資料上追加屬性
2020-11-25
物件
MySQL 千萬資料庫深分頁查詢優化，拒絕線上故障！
2022-06-17
MySql資料庫優化
MySQL order by limit 分頁資料重複問題
2018-05-14
MySqlMIT
應該怎麼分頁？
2022-08-10
資料庫怎麼分庫分表
2019-11-12
資料庫
mysql分頁-limit offset分頁
2019-03-08
MySqlMIT
得物面試：MySQL 深度分頁如何最佳化？
2024-01-18
面試MySql
mysql資料庫怎麼連線
2021-09-11
MySql資料庫
mongodb怎樣分庫
2021-09-11
MongoDB
寶塔安裝mysql5.7資料庫怎麼連不上
2024-11-04
MySql資料庫
在MongoDB資料庫中查詢資料(上)
2018-06-23
MongoDB資料庫
ElasticSearch 深度分頁詳解
2022-11-15
Elasticsearch
資料探勘和資料提取該怎麼區分？
2023-02-23
資料分頁說明
2018-08-06
線上直播原始碼，java資料分頁幾種方式
2023-05-09
原始碼Java
一文徹底弄懂MySQL最佳化之深度分頁
2024-10-26
MySql
讀寫分離 & 分庫分表 & 深度分頁
2024-03-09
Pycharm 怎麼連線 MySQL 資料庫
2020-11-02
PyCharmMySql資料庫
mysql怎麼清空表中的資料
2021-09-11
MySql
MySQL全面瓦解21（番外）：一次深夜優化億級資料分頁的奇妙經歷
2021-01-27
MySql優化
MySQL 海量資料的 5 種分頁方法和優化技巧
2019-03-08
MySql優化
mysql資料庫查詢時用到的分頁方法有哪些
2024-08-02
MySql資料庫
資料量很大，分頁查詢很慢，該怎麼優化？
2020-03-26
優化
怎樣開啟mongodb資料庫
2021-09-11
MongoDB資料庫
mongodb資料庫範圍分片資料分佈不均勻
2024-07-30
MongoDB資料庫
怎麼更改網頁上的字
2024-10-13
網頁
MySQL 執行原理【資料頁】
2019-09-09
MySql

上億資料怎麼玩深度分頁？相容MySQL + ES + MongoDB

面試題 & 真實經歷

慘痛的教訓

為什麼不能允許隨機深度跳頁

MySQL

MongoDB

ElasticSearch

再次和產品對線

通用解決方案

MySQL

ES

MongoDB

如果非要深度隨機跳頁

最後

相關文章