Hive中靜態分割槽和動態分割槽總結

翔子書記發表於2021-03-31

原文網址 : https://www.cnblogs.com/rongxiang1986/p/14600961.html

Hive

背景

在Hive中有兩種型別的分割槽：靜態分割槽(Static Partitioning)和動態分割槽(Dynamic Partitioning)。

靜態分割槽。對於靜態分割槽，從字面就可以理解：表的分割槽數量和分割槽值是固定的。
動態分割槽。會根據資料自動的建立新的分割槽。

本文會詳細介紹兩種分割槽方法、使用場景以及生產中常見問題和解決方法。

第一部分靜態分割槽

靜態分割槽的使用場景主要是分割槽的數量是確定的。例如人力資源資訊表中使用“部門”作為分割槽欄位，通常一段時間是靜態不變的。例如：

CREATE EXTERNAL TABLE employee_dept (
    emp_id INT,
    emp_name STRING
) PARTITIONED BY (
    dept_name STRING
    )
location '/user/employee_dept';

LOAD DATA LOCAL INPATH 'hr.txt'
INTO TABLE employee_dept
PARTITION (dept_name='HR');

上面的外部表以dept_name欄位為分割槽欄位，然後匯入資料需要指定分割槽。

第二部分動態分割槽

通常在生產業務場景中，我們使用的都是靈活的動態分割槽。例如我們使用時間欄位（天、小時）作為分割槽欄位。新的資料寫入會自動根據最新的時間建立分割槽並寫入對應的分割槽。例如下面的例子：

hive > insert overwrite table order_partition partition (year,month) select order_id, order_date, order_status, substr(order_date,1,4) year, substr(order_date,5,2) month from orders;

FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

寫入報錯。這是因為Hive預設配置不啟用動態分割槽，需要使用前開啟配置。開啟的方式有兩種：

在hive服務配置檔案中全域性配置；
每次互動時候進行配置（隻影響本次互動）；

通常我們生產環境使用第二種。

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

其中引數hive.exec.dynamic.partition.mode表示動態分割槽的模式。預設是strict，表示必須指定至少一個分割槽為靜態分割槽，nonstrict模式表示允許所有的分割槽欄位都可以使用動態分割槽。

第三部分兩者的比較

兩種分割槽模式都有各自的使用場景，我們總結如下：

	靜態分割槽(Static Partitioning)	動態分割槽（Dynamic Partitioning）
分割槽建立	資料插入分割槽之前，需要手動建立每個分割槽	根據表的輸入資料動態建立分割槽
適用場景	需要提前知道所有分割槽。適用於分割槽定義得早且數量少的用例	有很多分割槽，無法提前預估新分割槽，動態分割槽是合適的

另外動態分割槽的值是MapReduce任務在reduce執行階段確定的，也就是所有的記錄都會distribute by，相同欄位(分割槽欄位)的map輸出會發到同一個reduce節點去處理，如果資料量大，這是一個很弱的執行效能。而靜態分割槽在編譯階段就確定了，不需要reduce任務處理。所以如果實際業務場景靜態分割槽能解決的，儘量使用靜態分割槽即可。

第四部分動態分割槽使用的問題

Hive表中分割槽架構使得資料按照分割槽分別儲存在HDFS檔案系統的各個目錄中，查詢只要針對指定的目錄集合進行查詢，而不需要全域性查詢，提高查詢效能。

但是分割槽不是"銀彈"，如果分割槽資料過多，就會在HDFS檔案系統中建立大量的目錄和檔案，對於叢集NameNode服務是有效能壓力的，NameNode需要將大量後設資料資訊保留在記憶體中。另外大分割槽表在使用者查詢時候由於分析size太大，也容易造成Metastore服務出現OMM報錯。

上面兩個現象均在生產環境發生，分別造成NameNode和Metastore不可用。

事實上，Hive為了防止異常生產大量分割槽，甚至預設動態分割槽是關閉的。另外對於生成動態分割槽的數量也做了效能預設限制。

4.1 動態分割槽建立限制

當我們在一個Mapreduce任務（hive寫入會編譯成mapreduce任務）中建立大量分割槽的時候，經常會遇到下面的報錯資訊：

2015-06-15 17:27:44,614 ERROR [LocalJobRunner Map Task Executor #0]: mr.ExecMapper (ExecMapper.java:map(171)) - org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row ....
Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 256... 10 more

這個報錯就是因為Hive對於動態分割槽建立的限制，涉及的引數有：

hive.exec.max.dynamic.partitions = 1000;
hive.exec.max.dynamic.partitions.pernode = 100;
hive.exec.max.created.files = 10000

hive.exec.max.dynamic.partitions.pernode，引數限制MapReduce任務單個任務(mapper或reducer任務)建立的分割槽數量為100；
hive.exec.max.dynamic.partitions，引數限制單次整體任務建立分割槽的數量上限為1000個；
hive.exec.max.created.files，引數限制所有單次整體map和reduce任務建立的最大檔案數量上限為10000個；

以上三個閥值超過就會觸發錯誤，叢集會殺死任務。為了解決報錯，我們通常將兩個引數調大。但是也需要使用者對自己的Hive表的分割槽數量進行合理規劃，避免過多的分割槽。

4.2 特殊分割槽

如果動態分割槽列輸入的值為NULL或空字串，則Hive將該行將放入一個特殊分割槽，其名稱由引數hive.exec.default.partition.name控制。預設值為__HIVE_DEFAULT_PARTITION__。

使用者可以使用（檢視錶分割槽）命令進行檢視：

show partitions 'table名稱';

# process_date=20160208
#process_date=__HIVE_DEFAULT_PARTITION__

有時候異常生產這些分割槽資料，需要進行清理。如果使用下面的語句：

ALTER TABLE Table_Name DROP IF EXISTS PARTITION(process_date='__HIVE_DEFAULT_PARTITION__');

這時候Hive會報錯：

Error: Error while compiling statement: FAILED: SemanticException Unexpected unknown partitions for (process_date = null) (state=42000,code=40000)

這是Hive一個已知bug（編號：HIVE-11208），在Hive 2.3.0版本修復。

但是有個有修復方法（不建議在生產環境中實施）：

-- update the column to be "string"
ALTER TABLE test PARTITION COLUMN (p1 string);
-- remove the default partition
ALTER TABLE test DROP PARTITION (p1 = '__HIVE_DEFAULT_PARTITION__');
-- then revert the column back to "int" type
ALTER TABLE test PARTITION COLUMN (p1 int);

連結：https://cloudera.ericlin.me/2015/07/how-to-drop-hives-default-partition-hive_default_partition-with-int-partition-column/

4.3 亂碼分割槽欄位

有時候表分割槽欄位由於處理不當，會出現亂碼分割槽，例如：

hp_stat_time=r_ready%3D91;r_load%3D351

原因是Hive會自動對一些UTF-8字元編碼成Unicode（類似網址中中文字元和一些特殊字元的編碼處理）。此處%3D解碼後是'='。可以使用線上轉換進行解碼：https://www.matools.com/code-convert-utf8。

最後使用解碼後的欄位即可（注意分號轉義）：

alter table dpdw_traffic_base drop partition(hp_stat_time='r_ready=91\;r_load=351');

參考文獻及資料

1、動態分割槽，連結：https://cwiki.apache.org/confluence/display/Hive/DynamicPartitions

2、Hive Tutorial，連結：https://cwiki.apache.org/confluence/display/Hive/Tutorial

3、Apache Hive 中文手冊，連結：https://www.docs4dev.com/docs/zh/apache-hive/3.1.1/reference

更多關注公眾號：

Hive的靜態分割槽與動態分割槽
2018-05-03
Hive
Hive動態分割槽
2018-03-13
Hive
Hive動態分割槽詳解
2020-12-23
Hive
好程式設計師大資料培訓分享Hive的靜態分割槽與動態分割槽
2020-06-05
程式設計師大資料Hive
好程式設計師大資料開發之掌握Hive的靜態分割槽與動態分割槽
2019-03-29
程式設計師大資料Hive
hive Sql的動態分割槽問題
2024-04-01
HiveSQL
hive 動態分割槽插入資料表
2020-12-18
Hive
Hive的分割槽和排序
2024-11-13
Hive排序
Hive和Spark分割槽策略
2021-06-27
HiveSpark
SSD固態硬碟要分割槽嗎？SSD固態硬碟分割槽與不分割槽的效能對比
2018-12-12
硬碟
非 LVM 分割槽動態擴容
2024-03-05
LVM
hive分割槽分桶
2021-02-26
Hive
Spark操作Hive分割槽表
2018-12-07
SparkHive
oracle分割槽表和分割槽表exchange
2024-03-15
Oracle
SSD固態硬碟要分割槽嗎？不同容量SSD固態硬碟分割槽方案建議
2018-12-14
硬碟
HIVE基本語法以及HIVE分割槽
2018-09-20
Hive
移動分割槽表和分割槽索引的表空間
2018-05-23
索引
hive分割槽和分桶你熟悉嗎？
2024-03-10
Hive
oracle分割槽表和非分割槽表exchange
2024-03-15
Oracle
[Hive]hive分割槽設定注意事項
2018-08-16
Hive
作業系統『動態(可變)分割槽分配』
2021-01-04
作業系統
SSD固態硬碟是分割槽好還是不分割槽好？SSD固態硬碟使用注意事項
2018-12-12
硬碟
hive 分割槽表和分桶表區別
2020-09-26
Hive
Oracle Partition 分割槽詳細總結
2018-05-07
Oracle
Linux分割槽方案、分割槽建議
2024-11-04
Linux
Oracle12c：建立主分割槽、子分割槽，實現自動分割槽插入效果
2020-04-04
Oracle
處理動態分割槽時出現的異常
2021-09-09
PostgreSQL/LightDB 分割槽表之分割槽裁剪
2022-07-14
SQL
Linux 分割槽擴容（根分割槽擴容，SWAP 分割槽擴容，掛載新分割槽為目錄）
2021-08-27
Linux
分割槽表之自動增加分割槽（11G）
2018-04-26
oracle 分割槽表move和包含分割槽表的lob move
2019-03-11
Oracle
SqlServer關於分割槽表的總結
2019-08-27
SQLServer
Oracle分割槽表基礎運維-07增加分割槽(2 HASH分割槽)
2020-05-18
Oracle運維
非分割槽錶轉換成分割槽表
2022-07-09
[oracle] expdp 匯出分割槽表的分割槽
2021-01-28
Oracle
Oracle分割槽表基礎運維-07增加分割槽(1範圍分割槽)
2020-05-18
Oracle運維
openGauss 分割槽
2024-03-30
mysql 分割槽
2019-07-15
MySql

Hive中靜態分割槽和動態分割槽總結

目錄

背景

第一部分 靜態分割槽

第二部分 動態分割槽

第三部分 兩者的比較

第四部分 動態分割槽使用的問題