hive分割槽和分桶你熟悉嗎？

公众号-JavaEdge發表於2024-03-10

兩種用於最佳化查詢效能的資料組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量資料時的效能。

1 分割槽（Partitioning）

根據表的某列的值來組織資料。每個分割槽對應一個特定值，並對映到HDFS的不同目錄。

常用於經常查詢的列，如日期、區域等。這樣可以在查詢時僅掃描相關的分割槽，而不是整個資料集，從而減少查詢所需要處理的資料量，提高查詢效率。

物理上將資料按照指定的列（分割槽鍵）值分散存放於不同的目錄中，每個分割槽都作為表的一個子目錄。

建立分割槽表

CREATE TABLE orders (
    order_id INT,
    order_date DATE,
    order_customer INT,
    order_total FLOAT
)
PARTITIONED BY (country STRING);

基於country列建立分割槽將使得每個國家的訂單資料儲存在不同的目錄中。

2 分桶（Bucketing）

使用雜湊函式將資料行分配到固定數量的儲存桶（即檔案）中。這在表內部進一步組織資料。

對提高具有大量重複值的列（如使用者ID）上JOIN操作的效率特別有用，因為它可以更有效地處理資料傾斜
要求在建立表時指定分桶的列和分桶的數目

建立分桶表

CREATE TABLE user_activities (
    user_id INT,
    activity_date DATE,
    page_views INT
)
CLUSTERED BY (user_id) INTO 256 BUCKETS;

user_id是用於分桶的列，資料會根據使用者ID的雜湊值分配到256個儲存桶中。

3 對比

分割槽是基於列的值，將資料分散到不同的HDFS目錄；分桶則基於雜湊值，將資料均勻地分散到固定數量的檔案中。
分割槽通常用於減少掃描資料的量，特別適用於有高度選擇性查詢的場景；而分桶有助於最佳化資料的讀寫效能，特別是JOIN操作。
分割槽可以動態新增新的分割槽，只需要匯入具有新分割槽鍵值的資料；分桶的數量則在建立表時定義且不能更改。

使用分割槽時要注意避免過多分割槽會導致後設資料膨脹，合理選擇分割槽鍵，確保分佈均勻；而分桶則通常針對具有高度重複值的列。兩者結合使用時，可以進一步最佳化表的讀寫效能和查詢效率。

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家兼架構，多家大廠後端一線研發經驗，各大技術社群頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統效能最佳化

活動&優惠券等營銷中臺建設

交易平臺及資料中臺等架構和開發設計

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考：

程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出！

hive分割槽分桶
2021-02-26
Hive
hive 分割槽表和分桶表區別
2020-09-26
Hive
Apache Spark：分割槽和分桶 - Nivedita
2022-05-30
ApacheSpark
hive從入門到放棄(四)——分割槽與分桶
2022-04-02
Hive
好程式設計師大資料學習路線分享hive分割槽和分桶
2019-08-20
程式設計師大資料Hive
Hive的分割槽和排序
2024-11-13
Hive排序
Hive和Spark分割槽策略
2021-06-27
HiveSpark
Hive中靜態分割槽和動態分割槽總結
2021-03-31
Hive
Hive動態分割槽
2018-03-13
Hive
HIVE基本語法以及HIVE分割槽
2018-09-20
Hive
Hive的靜態分割槽與動態分割槽
2018-05-03
Hive
Spark操作Hive分割槽表
2018-12-07
SparkHive
[Hive]hive分割槽設定注意事項
2018-08-16
Hive
Hive——分桶的理解
2020-10-21
Hive
hive分桶表排序
2020-09-26
Hive排序
Hive動態分割槽詳解
2020-12-23
Hive
MySql分表、分庫、分片和分割槽
2021-06-17
MySql
一文教你玩轉 Apache Doris 分割槽分桶新功能
2023-02-10
Apache
Hive分桶之BUCKET詳解
2019-03-24
Hive
hive Sql的動態分割槽問題
2024-04-01
HiveSQL
hive 動態分割槽插入資料表
2020-12-18
Hive
DIY攢機-你真的搞懂了硬碟分割槽嗎？
2018-06-11
硬碟
一起學Hive——使用MSCK命令修復Hive分割槽
2021-09-09
Hive
WebView你真的熟悉嗎？
2018-03-29
WebView
oracle分割槽表和分割槽表exchange
2024-03-15
Oracle
【趙渝強老師】Hive的分割槽表
2024-10-28
Hive
hive迷案之消失的分割槽檔案
2021-09-09
Hive
hive學習筆記之四：分割槽表
2021-07-02
Hive筆記
oracle分割槽表和非分割槽表exchange
2024-03-15
Oracle
Oracle分割槽表基礎運維-01分割槽表分類
2020-05-14
Oracle運維
hive學習筆記之五：分桶
2021-07-03
Hive筆記
Hive on Spark和Spark sql on Hive，你能分的清楚麼
2022-01-04
HiveSparkSQL
Hive on Spark 和 Spark sql on Hive，你能分的清楚麼
2022-09-26
HiveSparkSQL
SSD固態硬碟要分割槽嗎？SSD固態硬碟分割槽與不分割槽的效能對比
2018-12-12
硬碟
你真的熟悉 npm-scripts 嗎？
2019-04-14
NPM
Oracle分割槽表基礎運維-06分割槽表索引
2020-05-18
Oracle運維索引
win10分割槽使用mbr好還是gpt好_win10系統gpt分割槽和mbr分割槽的區別
2020-03-19
Win10GPT
oracle 分割槽表move和包含分割槽表的lob move
2019-03-11
Oracle