HBase海量資料高效入倉解決方案

vivo網際網路技術發表於2022-03-15

原文網址 : http://blog.itpub.net/69912579/viewspace-2871151/

一、方案背景

現階段部分業務資料儲存在HBase中，這部分資料體量較大，達到數十億。大資料需要增量同步這部分業務資料到資料倉儲中，進行離線分析，目前主要的同步方式是通過HBase的hive對映表來實現的。該種方式具有以下痛點：

需要對HBase表進行全表掃描，對HBase庫有一定壓力，同步資料同步速度慢。
業務方對HBase表欄位變更之後，需要重建hive對映表，給許可權維護帶來一定的困難。
業務方對HBase表欄位的變更無法得到有效監控，無法及時感知欄位的新增，對數倉的維護帶來一定的困難。
業務方更新資料時未更新時間戳，導致通過時間戳欄位增量抽取時資料缺失。
業務方對錶欄位的更新新增無法及時感知，導致欄位不全需要回溯資料。

基於以上背景，對HBase資料增量同步到數倉的場景，給出了通用的解決方案，解決了以上這些痛點。

二、方案簡述

2.1 資料入倉構建流程

2.2 HBase資料入倉方案實驗對比

分別對以上三種實現方案進行合理性分析。

2.2.1 方案一

使用HBase的hive對映表。此種方案實現方式簡單，但是不符合數倉的實現機制，主要原因有：

HBase表雖然是Hadoop生態體系的NoSQL資料庫，但是其作為業務方的資料庫，直接通過hive對映表讀取，就類比於直接讀取業務方Mysql中的檢視，可能會對業務方資料庫造成一定壓力，甚至會影響業務的正常執行，違反數倉儘可能低的影響業務執行原則。
通過hive對映表的方式，從實現方式上來講，增加了與業務方的耦合度，違反數倉建設解耦原則。

所以此種方案在此實際應用場景中，是不應該採取的方案。

2.2.2 方案二

根據業務表中的時間戳欄位，抓取增量資料。由於HBase是基於rowKey的NoSQL資料庫，所以會存在以下幾個問題：

需要通過Scan全表，然後根據時間戳（updateTime）過濾出當天的增量，當資料量達到千萬甚至億級時，這種執行效率就很低，執行時長很長。
由於HBase表更新資料時，不像MySQL一樣，能自動更新時間戳，會導致業務方沒有及時更新時間戳，那麼在增量抽取資料的時候，會造成資料缺失的情況。

所以此種方案存在一定的風險。

2.2.3 方案三

根據HBase的timeRange特性（HBase寫入資料的時候會記錄時間戳，使用的是伺服器時間），首先過濾出增量的rowKey，然後根據這些rowKey去HBase查詢對應的資料。這種實現方案同時解決了方案一、方案二的問題。同時，能夠有效監控業務方對HBase表欄位的新增情況，避免業務方未及時通知而導致的資料缺失問題，能夠最大限度的減少資料回溯的頻率。

綜上，採用方案三作為實現HBase海量資料入倉的解決方案。

2.3 方案選擇及實現原理

基於HBase資料寫入時會更新TimeRange的特性，scan的時候如果指定TimeRange，那麼就不需要掃描全表，直接根據TimeRange獲取到對應的rowKey，然後再根據rowKey去get出增量資訊，能夠實現快速高效的獲取增量資料。

為什麼scan之後還要再去get呢？主要是因為通過timeRanme出來的資料，只包含這個時間範圍內更新的列，而無法查詢到這個rowkey對應的所有欄位。比如一個rowkey有name，age兩個欄位，在指定時間範圍內只更新了age欄位，那麼在scan的時候，只能查詢出age欄位，而無法查詢出name欄位，所以要再get一次。同時，獲取增量資料對應的columns，跟hive表的meta資料進行比對，對欄位的變更進行及時預警，減少後續因少同步欄位內容而導致全量初始化的情況發生。其實現的原理圖如下：

三、效果對比

執行時間對比如下（單位：秒）：

四、總結與展望

資料倉儲的資料來源於各方業務系統，高效準確的將業務系統的資料同步到數倉，是數倉建設的根本。通過該解決方案，主要解決了資料同步過程中的幾大痛點問題，能夠較好的保證資料入倉的質量問題，為後續的數倉建設打下一個較好的基礎。

另外，通過多次實驗對比，及對各種方案的可行性分析，將資料同步方案同步給一站式大資料開發平臺，推動大資料開發平臺支援基於timeRange的增量同步功能，實現此功能的平臺化、配置化，解決了HBase海量資料入倉的痛點。

同時，除了以上這幾種解決方案之外，還可以嘗試結合Phoenix使用二級索引，然後通過查詢Phoenix表的方式同步到數倉，這個將在後期進行效能測試。

作者：vivo網際網路大資料團隊-Tang Xicheng

杉巖海量資料儲存解決方案
2019-12-30
海量資料和高併發的解決方案
2019-04-02
大資料和資料倉儲解決方案
2020-03-24
大資料
圖解大資料 | 海量資料庫查詢-Hive與HBase詳解
2022-03-08
圖解大資料資料庫Hive
億萬級資料處理的高效解決方案
2021-09-09
面對海量資料儲存，如何保證HBase叢集的高效以及穩定
2019-02-20
7天帶你全面瞭解資料倉儲體驗海量資料分析
2019-04-26
hbase構建二級索引解決方案
2021-12-28
索引
一次資料庫匯入解決方案
2021-05-06
資料庫
一個簡化、落地的實時資料倉儲解決方案
2023-05-18
基於商業版Hadoop搭建的資料倉儲解決方案
2022-12-30
Hadoop
大資料解決方案
2020-01-02
大資料
高效實現MySQL資料整合至金蝶雲星空的解決方案
2024-10-24
MySql
實時數倉之Flink消費kafka訊息佇列資料入hbase
2024-03-26
Kafka佇列
[數倉]資料倉儲設計方案
2019-06-11
一招教你資料倉儲如何高效批次匯入與更新資料
2021-07-26
解決方案丨資料治理實戰：滴滴資料資產管理產品解決方案
2020-04-01
Sentry 企業級資料安全解決方案 - Relay 入門
2022-01-05
50億海量資料如何高效儲存和分析？
2022-12-01
ECharts海量資料渲染解決卡頓的4種方式
2024-04-24
Echarts
海量列式非關聯式資料庫HBase 架構，shell與API
2021-09-14
資料庫架構API
杉巖海量圖片分散式儲存解決方案
2019-12-23
分散式
Hbase master gone 系統崩潰. 遭遇 hbase bug 以及對應的解決方案.
2019-05-23
ASTGo
.NET 中高效 Excel 解決方案 MiniExcel
2024-07-24
Excel
資料倉儲應該用什麼方案——資料倉儲實施方案概述
2024-05-30
雲資料庫安全解決方案
2020-01-06
資料庫
資料庫回檔解決方案
2021-09-09
資料庫
vivo x TiDB丨解決雲服務海量資料挑戰
2023-02-20
TiDB
一條資料HBase之旅，簡明HBase入門教程開篇
2018-06-15
資料匯入終章：如何將HBase的資料匯入HDFS？
2018-10-15
HBase BulkLoad批量寫入資料實戰
2018-08-19
企業如何資料整合？資料整合解決方案
2022-07-13
小福利，用gevent多協程高效爬取海量資料
2020-10-18
簡述高併發解決思路-如何處理海量資料（中）
2018-05-28
實踐資料回滾解決方案
2019-03-01
AzureStack混合雲大資料解決方案
2018-05-10
REST大資料
Apache Hudi：雲資料湖解決方案
2020-06-21
Apache
Spark 資料傾斜及其解決方案
2019-12-30
Spark