Hive_使用ACID事務特性實現漸變維度SCD2操作

wait4friend發表於2018-06-04

原文網址 : https://juejin.im/post/5b154c69e51d4506825f0619

Hive

背景

基於維度模型理論的資料倉儲中，一個特別重要的部分是漸變維度的處理，其中用的最多的方法是對維度表進行SCD2型別拉鍊表操作。具體實現使用upsert模式，即更新舊資料的時間戳，並且插入新資料。

但是在使用Hive作為資料倉儲的場景下，對SCD2的操作就比較麻煩。因為Hive不支援更新操作，所以通常做法是把流程中的各部分資料清洗後單獨儲存為獨立的臨時表，然後通過union all的方式對目標表進行overwrite操作。

不過，通過一些特殊的配置，可以開啟Hive對ACID的支援特性，從而實現對Hive進行update，delete這些操作。

本文以HDP 2.4版本為例，演示一下如何實現這個需求。這裡先簡要描述需要執行的步驟。

開啟hive acid特性（通過Ambari操作）
建立支援acid的hive表（滿足bucket，orc，tblproperties的要求）
演示基本DML操作（insert, update, delete）
SCD 2演算法的一個簡單實現
acid特性的不足（當前還不支援Spark SQL）

前置條件

Hive全域性配置

首先必須開啟Hive對ACID事務的支援。在Amabri介面修改hive配置，開啟ACID Transactions，如下圖

在開啟這個配置的時候，Amabri會提示是否自動修改一些其他的引數，選擇OK確定即可，如下圖

Hive表格式

一個hive表要支援事務，需要同時滿足下列條件：

使用bucket，注意這裡不是partition，而是bucket；
儲存為ORC格式；
指定表屬性transactional

一個滿足上述條件的建表語句如下

create table if not exists demo(
    area_id bigint,
    area_code string,
    area_name string,
    gmt_create timestamp
)
clustered by (area_id) into 8 buckets
stored as orc 
tblproperties('transactional'='true')
;
複製程式碼

演示資料

本例中使用到三張表：

demo_d01 初始化資料
demo_d02 變數資料，包括新增的資料，以及對原有資料的修改
demo_d00 需要進行SCD2操作的目標表

demo_d01

-- init table
drop table if exists demo_d01;
create table if not exists demo_d01(
    area_id bigint,
    area_code string,
    area_name string,
    gmt_create timestamp
)
row format delimited
fields terminated by ','
lines terminated by '\n'
stored as textfile
;
複製程式碼

初始化資料，樣本如下，是在2015-09-25這天的資料

47498,CHNP001,北京,2015-09-25 11:34:29.0
47499,CHNP002,天津,2015-09-25 11:34:29.0
47500,CHNP003,河北,2015-09-25 11:34:29.0
47501,CHNP004,山西,2015-09-25 11:34:29.0
47502,CHNP005,內蒙古,2015-09-25 11:34:29.0
複製程式碼

demo_d02

-- delta table
drop table if exists demo_d02;
create table if not exists demo_d02(
    area_id bigint,
    area_code string,
    area_name string,
    gmt_create timestamp
)
row format delimited
fields terminated by ','
lines terminated by '\n'
stored as textfile
;
複製程式碼

變數資料，包括新增的資料，以及對原有資料的修改。樣本如下，模擬2015-09-26的變數資料，包括一條新增和一條修改。並且為了簡化後面SCD的演示，使用了提前生成好的代理關鍵字area_id

57502,CHNP005,內蒙古-新,2015-09-26 11:34:29.0
57509,CHNP006,四川,2015-09-26 11:34:29.0
複製程式碼

demo_d00

這個表同時滿足前面提到的幾個條件，可以支援ACID事務操作。

-- target table
drop table if exists demo_d00;
create table if not exists demo_d00(
    area_id bigint,
    area_code string,
    area_name string,
    gmt_create timestamp
)
clustered by (area_id) into 8 buckets
stored as orc 
tblproperties('transactional'='true')
;
複製程式碼

ACID事務操作

這裡先簡單講解一下DML操作的實現，不涉及SCD部分。並且為了方便演示資料夾中的檔案數量變化，這裡僅使用了一個bucket，而不是建表指令碼中的8個。

insert

insert into table demo.demo_d00 select * from demo_d01;
複製程式碼

初始化之後的資料如下

當一個hive表插入了初始化資料後，在對應的檔案目錄下有這些檔案。和普通orc格式的hive表不同，這裡有兩個資料夾，如下圖

update

update demo.demo_d00 set area_code='xxx' where area_id=47501;

select * from demo.demo_d00;
複製程式碼

更新操作後的資料如下，可以看到原來的CHNP004變成了xxx

ORC格式的檔案本身是不支援更新的，所以對hive表的更新並不是直接修改資料檔案，而是通過增加變更資料集(Change Set)的方式完成的。資料夾目錄下增加了新的檔案，這部分新檔案就是本次操作的delta集，如下圖中紅色框：

delete

delete from demo.demo_d00 where area_id=47500;

select * from demo.demo_d00;
複製程式碼

資料如下

檔案如下，可以清楚的看到，不論是update還是delete，實際都是通過delta檔案的方式進行的，並沒有修改原始的檔案。

實現SCD 2

漸變維度SCD 2的處理過程可以簡單的描述為

修改已經存在維度資料的時間戳；
把更新的維度資料作為一條新維度插入；
插入其他新增維度資料；

常規實現

我們用一個簡化的模型來模擬這個SCD 2的更新過程

-- 初始化目標表
truncate table demo.demo_d00;
insert into table demo.demo_d00 select * from demo.demo_d01;

-- SCD2 修改已經存在維度資料的時間戳
update demo.demo_d00 
  set gmt_create = '2015-09-26 00:00:00'
where exists (select 1 from demo.demo_d02 d2 where demo_d00.area_code=d2.area_code);

-- SCD2 把變數維度（包括更新和新增兩部分）資料作為新維度插入
insert into table demo.demo_d00 select * from demo.demo_d02;
複製程式碼

完成後的維度表資料如下，其中CHNP005有兩條資料，一條是時間戳已經截止的，另一條是當前的。在hive環境用這個方法實現SCD 2的更新過程，和普通RDBMS沒有差異。

Merge語法

在HDP 2.6之後，新增的merge into語法可以更方便的實現upsert操作。

因為我們的環境是HDP 2.4，所以這裡不做具體測試，但是我會把語句寫在這裡，有機會的時候可以繼續這個測試。

-- HDP 2.6 提供了merge語法
merge into demo_d00
    using demo_d01 d01 
    on demo_d00.area_code = d01.area_code
when matched then update set
    gmt_create = '2015-09-26 00:00:00'
when not matched then insert
    values(d01.area_id, d01.area_code, d01.area_name, d01.gmt_create)
;
複製程式碼

當前不足

當前我們的測試環境下（HDP 2.4， Spark 2.3.0），只有原生hive才提供了ACID的支援。我們常用的Spark SQL並不支援這種用法。

spark-sql> delete from demo.demo_d00 where area_id=47500;
Error in query:
Operation not allowed: delete from(line 1, pos 0)

== SQL ==
delete from demo.demo_d00 where area_id=47500
^^^

spark-sql>
複製程式碼

深入學習MySQL事務：ACID特性的實現原理
2019-03-28
MySql
mysql淺談--事務ACID特性
2020-09-15
MySql
MySQL是如何實現事務的ACID
2020-08-19
MySql
搞懂MySQL InnoDB事務ACID實現原理
2019-03-24
MySql
事務ACID特性與隔離級別
2019-05-11
【原創】Mysql中事務ACID實現原理
2019-05-10
MySql
探索Redis設計與實現14：Redis事務淺析與ACID特性介紹
2019-11-17
Redis
一文帶你看通透，MySQL事務ACID四大特性實現原理
2023-03-13
MySql
面試題：MySQL事務的ACID如何實現？
2023-10-28
面試題MySql
使用 CSS 實現漸變效果
2024-07-11
CSS
談談MySQL InnoDB儲存引擎事務的ACID特性
2018-05-04
MySql儲存引擎
MySQL 學習筆記（一）MySQL 事務的ACID特性
2022-03-05
MySql筆記
手把手使用 SVG + CSS 實現漸變進度環效果
2024-08-02
SVGCSS
Rama透過拓撲通用語言實現ACID事務
2024-04-10
帶你瞭解資料庫中事務的ACID特性
2019-04-09
資料庫
跨微服務的 ACID 事務
2021-08-29
微服務
事務的性質（ACID）
2019-08-25
Redis 事務支援 ACID 麼？
2022-01-14
Redis
ACID之I：事務隔離
2018-11-25
Java資料庫事務管理：ACID屬性的實現與應用
2024-09-01
Java資料庫
css3實現文字線性漸變，css3實現背景漸變
2024-10-24
CSSS3
CSS實現好看的文字漸變
2024-08-23
CSS
CSS 實現字型顏色漸變
2024-12-06
CSS
eBay推出首個微服務架構下可實現ACID的分散式事務協議：GRIT
2019-10-29
微服務架構分散式協議
使用Spring Boot實現事務管理
2024-07-15
Spring Boot
ACID的實現原理
2021-09-21
什麼是事務、事務特性、事務隔離級別、spring事務傳播特性？
2018-08-09
Spring
Apache Hudi Timeline：支援 ACID 事務的基礎
2023-11-05
Apache
直播軟體開發，漸變色任務進度條
2021-10-11
使用Spring Boot實現分散式事務
2024-07-13
Spring Boot分散式
使用Spring Boot實現Redis事務 | Vinsguru
2020-12-01
Spring BootRedis
app直播原始碼，實現進度條自增長及漸變樣式
2022-06-07
APP原始碼
如何實現css漸變圓角邊框
2019-08-14
CSS
canvas錐形漸變進度條
2020-05-28
Canvas
事務4大特性
2020-11-09
Redis 中的事務分析，Redis 中的事務可以滿足ACID屬性嗎？
2022-06-19
Redis
關於Delta Lake的ACID事務機制簡介
2021-12-25
css文字顏色漸變的3種實現
2019-01-03
CSS