hive學習筆記之五：分桶

程式設計師欣宸發表於2021-07-03

原文網址 : https://www.cnblogs.com/bolingcavalry/p/14965877.html

Hive筆記

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

《hive學習筆記》系列導航

本篇概覽

本文是《hive學習筆記》的第五篇，前文學習了分割槽表，很容易發現分割槽表的問題：

分割槽欄位的每個值都會建立一個資料夾，值越多資料夾越多；
不合理的分割槽會導致有的資料夾下資料過多，有的過少；
此時可以考慮分桶的方式來分解資料集，分桶原理可以參考MR中的HashPartitioner，將指定欄位的值做hash後，根據桶的數量確定該記錄放在哪個桶中，另外，在join查詢和資料取樣時，分桶都能提升查詢效率；

接下來開始實戰；

配置

執行以下設定，使得hive根據桶的數量自動調整上一輪reducers數量：

set hive.enforce.bucketing = true;

如果不執行上述設定，您需要自行設定mapred.reduce.tasks引數，以控制reducers數量，本文我們們配置為hive自動調整；

準備資料

接下來先準備外部表t13，往裡面新增一些資料，將t13作為後面分桶表的資料來源：

表名t13，只有四個欄位：

create external table t13 (name string, age int, province string, city string) 
row format delimited 
fields terminated by ',' 
location '/data/external_t13';

建立名為013.txt的檔案，內容如下：

tom,11,guangdong,guangzhou
jerry,12,guangdong,shenzhen
tony,13,shanxi,xian
john,14,shanxi,hanzhong

將013.txt中的四條記錄載入t13：

load data 
local inpath '/home/hadoop/temp/202010/25/013.txt' 
into table t13;

分桶

建立表t14，指定欄位分桶，桶數量為16：

create table t14 (name string, age int, province string, city string) 
clustered by (province, city) into 16 buckets
row format delimited 
fields terminated by ',';

從t13匯入資料，注意語法是from t13開始，要用overwrite關鍵字：

from t13
insert overwrite table t14 
select name, age, province, city;

匯入過程如下圖所示，可見reducer數量已被自動調整為桶數量：

在這裡插入圖片描述

匯入後，檢視hdfs，可見被分為16個檔案，(和分割槽對比一下，分割槽是不同的資料夾)：

在這裡插入圖片描述

取樣

執行以下語句，取樣檢視t14的資料：

hive> select * from t14 tablesample(bucket 1 out of 2 on province, city);
OK
tom	11	guangdong	guangzhou
john	14	shanxi	hanzhong
Time taken: 0.114 seconds, Fetched: 2 row(s)

至此，分桶操作就完成了，基礎知識的實踐已經完成，接下來開始一些進階實踐；

你不孤單，欣宸原創一路相伴

歡迎關注公眾號：程式設計師欣宸

微信搜尋「程式設計師欣宸」，我是欣宸，期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

雙層桶劃分學習筆記
2018-03-06
筆記
hive學習筆記之八：Sqoop
2021-07-07
Hive筆記OOP
hive學習筆記之十一：UDTF
2021-07-11
Hive筆記
Hive分桶之BUCKET詳解
2019-03-24
Hive
hive學習筆記之九：基礎UDF
2021-09-09
Hive筆記
hive學習筆記之四：分割槽表
2021-07-02
Hive筆記
hive學習筆記之六：HiveQL基礎
2021-07-05
Hive筆記
hive學習筆記之七：內建函式
2021-07-06
Hive筆記函式
Hive——分桶的理解
2020-10-21
Hive
hive分桶表排序
2020-09-26
Hive排序
hive分割槽分桶
2021-02-26
Hive
TypeScript學習筆記之五類（Class）
2018-12-10
TypeScript筆記
cmake學習筆記(五)
2018-12-07
筆記
JVM 學習筆記（五）
2020-07-11
JVM筆記
Redux 進階 – react 全家桶學習筆記（二）
2019-03-03
ReduxReact筆記
Redux 進階 - react 全家桶學習筆記（二）
2018-08-12
ReduxReact筆記
Redux 基礎 - react 全家桶學習筆記（一）
2018-08-12
ReduxReact筆記
Kubernetes學習筆記（五）：卷
2020-05-24
筆記
DP學習筆記（五）（2024.11.16）
2024-11-16
筆記
c++學習筆記（五）
2024-07-25
C++筆記
字典--Python學習筆記（五）
2020-11-29
Python筆記
差分學習筆記
2024-04-07
筆記
分塊學習筆記
2024-08-17
筆記
Hive學習之Hive的安裝
2018-11-30
Hive
HIVE學習之（三）
2018-07-25
Hive
hive學習筆記之十：使用者自定義聚合函式(UDAF)
2021-07-09
Hive筆記函式
Hive學習筆記 ---- 支援Update和Delete以及Merge
2020-03-18
Hive筆記delete
Vue.js 2.0之全家桶系列視訊課程——筆記（五）
2018-08-14
Vue.js筆記
Jenkinsant介紹(學習筆記五)
2018-04-26
Jenkins筆記
Qt學習筆記（五）QString 字串
2018-04-17
QT筆記字串
學習筆記：微積分
2021-11-15
筆記
點分樹學習筆記
2021-01-16
筆記
hive分割槽和分桶你熟悉嗎？
2024-03-10
Hive
hive學習筆記之一：基本資料型別
2021-07-01
Hive筆記資料型別
Hive學習之基本操作
2018-11-30
Hive
好程式設計師大資料學習路線分享hive分割槽和分桶
2019-08-20
程式設計師大資料Hive
Netty學習筆記(五)NioEventLoop啟動
2018-11-10
Netty筆記OOP
springcloud學習筆記（五）Spring Cloud Actuator
2019-02-14
SpringGCCloud筆記

hive學習筆記之五：分桶

歡迎訪問我的GitHub

《hive學習筆記》系列導航

本篇概覽

配置

準備資料

分桶

取樣

你不孤單，欣宸原創一路相伴

歡迎關注公眾號：程式設計師欣宸

相關文章