教你三步實現CDH到星環TDH的平滑遷移

星環科技發表於2022-03-15

Transwarp Data Hub(TDH) 是星環科技自主研發的企業級一站式多模型大資料基礎平臺,其領先的多模型技術架構提供統一的介面層,統一的計算引擎層,統一的分散式儲存管理層,統一的資源排程層,以及異構儲存引擎層。8種異構儲存引擎可以支援包括關係表、文字、時空地理、圖資料、文件、時序等在內的10種資料模型。存算解耦特性支援彈性擴充套件,讓資源配置更靈活

 

星環一站式多模 大資料基礎平臺TDH架構圖

TDH能夠儲存PB 級別的海量資料,同時能夠提供高效能的查詢搜尋、實時分析、統計分析、預測性分析等資料分析功能,被廣泛應用在離線資料批處理、高併發的線上資料服務、資料集市、資料倉儲、資料湖、圖儲存分析、空間資料儲存、實時資料處理等各類大資料業務場景。

目前  TDH 已經在政府、金融、能源、製造業等十多個行業內落地,可以替代Oracle、IBM DB2、Teradata等傳統主流資料庫在分析型場景中的應用及替代 CDH在大資料平臺的應用 ,幫助企業,更全面、更便捷、更智慧、更安全地運用資料,加速企業數字化轉型。

本文將基於某金融機構的資料倉儲批處理場景來手把手 帶領大家 “三步” 完成 CDH到 星環 TDH的平滑遷移。

CDH叢集及業務場景

金融機構基於CDH構建了 離線 數倉和對客高併發查詢業務,完整業務場景包括:

資料抽取,透過Sqoop基本從業務資料庫中抽取資料到分散式檔案 HDFS

資料載入,透過 S hell指令碼將資料Load到離線數倉Hive中,儲存為orc格式;

資料加工,透過Hive指令碼做資料離線批處理加工,支撐營銷、風控等業務;

對客查詢,部分結果load到 HB ase對客提供高併發查詢服務;

實際客戶場景涉及數千張表和指令碼,百 TB 級別資料量,這裡我們對其中完整邏輯做了抽象,精簡的過程便以理解遷移過程。

 

CDH叢集資訊

硬體資訊

節點數

3

CPU

4 0 /節點

記憶體

2 56G/ 節點

磁碟

1 2*1.7 T / 節點

軟體資訊

軟體

版本

CDH

V6 .2.1

Hive

V 2.1.1

H base

V 2.1.2

Hadoop

V 3.0.0

S qoop

V 1.99.5

 

CDH資料處理流程

資料抽取(模擬資料E TL

Sqoop工具從業務資料庫抽取資料到Hive表。

 

批處理資料(模擬資料加工)

Hive中執行批處理SQL,把結果寫入銷售統計表。

 

將處理結果匯入H B ase,在H B ase中查詢結果(模擬對客查詢)

* 用HBase的導數工具把Hive批處理結果匯入HBase。

 

*   點查

 

 

在正式遷移之前,我們需要準備好TDH的部署環境,並安裝好星環TDH,具體的安裝步驟可參考《手把手教你安裝TDH 8.1.0 》。

 

TDH叢集 資訊

T DH叢集資訊

硬體資訊

節點數

3

CPU

4 0 /節點

記憶體

2 56G/ 節點

磁碟

1 2*1.7 T / 節點

軟體資訊

軟體

版本

TDH

V 8.1.2

HDFS

V 8.1.0

Inceptor

V 8.1.0

Hyperbase

V 8.1.0

Transporter

V 2.2.0

 

星環TDH產品介紹

產品

使用場景

主要功能

分散式檔案系統 Transwarp Distributed File System TDFS)

提供 Inceptor、Hyperbase等產品所需要的檔案讀寫功能,也可以直接透過介面為客戶提供分散式檔案系統服務

TDFS是用於存取PB級海量檔案的分散式檔案系統,提供了相容Hadoop生態的檔案系統API,實現了十億及以上數量級的檔案讀寫能力。

關係型分析引擎  Inceptor

資料湖以及其他結構化資料的分析場景等

Inceptor是一款可以對數百萬張結構化資料表、PB級的海量資料進行儲存和加工的分散式關係型分析引擎。Inceptor支援絕大部分ANSI 92、99、2003 SQL標準,相容傳統關係型資料庫方言,如Oracle、IBM DB2、Teradata等,支援儲存過程,支援分散式事務,便於存量資料分析業務平滑遷移。

寬表資料庫 Hyperbase

歷史資料查詢系統、面向消費者的高併發的資料查詢業務等場景

Hyperbase是一款能夠實現在TB到PB級資料量下毫秒級響應延時、百萬級高併發檢索的NoSQL寬表資料庫。Hyperbase與Inceptor組合,可以為開發者提供良好的SQL相容性和儲存過程的開發能力,支援多種型別的索引技術,支援存放結構化資料以及圖片、文字等非結構化資料,能夠實現結構化和非結構化資料的混合儲存。

大資料整合工具Transporter

資料湖、資料倉儲

Transporter是視覺化的ETL開發工具,將分散於各個地方、各種平臺上的各種型別的資料同步或整合到大資料平臺上,透過簡潔、統一的視覺化介面快速配置資料流轉流程,實現異構平臺和資料來源之間的資料整合。Transporter自研的快速資料同步技術,提供了分散式事務能力,保證了資料在跨平臺之間流轉時的準確性和一致性。

 

在安裝好TDH及服務之後,我們需要安裝 星環大資料平臺資料備份恢復軟體Transwarp   B ackup (TBAK) 之後我們就可以在TBAK的視覺化介面透過簡單的“三步”來實現CDH到星環TDH的平滑遷移。

Transwarp   B ackup (TBAK) 是星環的大資料 平臺資料備份恢復軟體 可獨立於生產叢集與備份叢集之外,具備災備方案制定與排程災備任務的功能。同時,災備系統提供了視覺化的操作頁面以及豐富的統計監控頁面,使用者透過瀏覽器進行簡單的操作即可直觀的設計災備方案、分析災備任務 從而完成叢集的資料備份、同步、遷移。

 

三步實現CDH到星環TDH的平滑遷移

Step 1配置CDH TDH 叢集

該步驟主要是用來配置CDH和TDH叢集,為後續資料遷移做準備。 星環 TBAK提供視覺化的介面進行叢集配置,我們根據介面指引式嚮導進行配置即可完成,簡便快捷。

CDH叢集配置

首先新建一個CDH叢集配置,我們可以在叢集配置介面設定CDH叢集名稱,協議,CDH   Manager   IP,埠,使用者名稱和密碼等資訊。

 

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移


 

當叢集資訊配置完成並校驗成功後,我們就可以獲取到配置檔案。之後我們需要對各服務進行配置並測試連線,在該案例場景中使用的是HDFS,HBase和Hive。

 

 

TDH叢集 配置

同樣,我們對TDH叢集進行相應配置。

 

 

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移


 

 

Step 2建立CDH遷移方案

CDH和TDH叢集配置完成後,我們就可以配置CDH到 TDH的遷移方案了。根據該案例CDH的業務情況,我們需要分別對CDH   Hive,HDFS和HBase的遷移方案進行配置。

 

 

建立CDH Hive遷移方案

CDH   Hive遷移方案為例,TDH提供服務級和表級的遷移策略,例如這裡我們在同步型別中選擇“CDH到TDH   Hvie表遷移”,同時我們可以對源叢集,災備叢集,排程策略等進行配置。在排程策略中使用者可以根據實際情況進行配置,我們可以設定在業務空窗期的每天凌晨2點進行資料遷移。同時,使用者可以設定相應的告警策略,當遷移發生問題時可以第一時間收到告警資訊並對問題進行排查和恢復。

 

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移


 

 

 

與建立 CDH   Hive遷移方案 的操作步驟相同 我們可以 CDH HFDS和HBase的遷移方案進行配置。

 

Step 3 執行 遷移任務 和結果檢查

當叢集配置完成後,所有的遷移方案將在遷移方案介面進行管理和操作。我們可以選擇相應的遷移方案進行操作,例如立即執行和設定執行策略。

執行遷移任務

 

點選執行遷移任務之後,系統進入到自動遷移狀態,我們可以監測遷移任務執行的整體狀態資訊,並且可以對每一步的執行情況進行實時監測,例如成功,失敗,告警,執行中和未執行。當遷移發生故障時,我們會收到執行故障的告警, 對故障發生的階段進行排查和故障恢復。

 

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移

       

 

遷移結果檢查

當所有遷移步驟都顯示成功後,我們可以對遷移前後的情況進行檢查確認。

Hive遷移

遷移前CDH Hive表

 

遷移前TDH Inceptor對應表不存在

 

遷移後TDH Inceptor對應表查詢結果

 

如上檢查,我們可以確認 CDH Hive表 遷移成功。同樣 ,我們對HDFS和HBase遷移情況進行檢查 以確認遷移已成功

 

至此,CDH到TDH的遷移工作就全部完成了。

 

整個遷移過程均在視覺化介面完成,邏輯清晰,操作簡單,配置靈活,透過3步即可完成所有的遷移工作,同時使用者可以對遷移過程進行全流程實時監控,保障整個遷移過程順利進行。

 

遷移後TDH資料處理流程

接下來我們來看看CDH遷移到TDH後的資料處理流程。

資料E TL (抽取+載入)

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移

在星環大資料開發工具Transwarp   Data   Studio(TDS)中配置資料同步,從業務資料庫抽取資料到星環關係型分析引擎Inceptor中。

 

 

教你三步實現CDH到星環TDH的平滑遷移

教你三步實現CDH到星環TDH的平滑遷移

 

資料加工

I nceptor 高度相容Hive, 批處理 任務基本不需改動即可以遷移到Inceptor執行。

CDH要手動向H B ase匯入資料不同,TDH中可以直接把批處理結果寫入 H yperbase表 中。

 

 

 

Hyperbase提供對客高併發查詢

Transwarp Hyperbase支援SQL和API兩種查詢方式,使用者可以根據實際情況進行選擇。

S QL 查詢方式

對傳統資料庫開發人員友好,門檻低,新業務開發和維護成本低。

 

API 查詢方式

星環TDH 對原來基於C DH 開發的應用相容性高, 原先 業務可以平滑遷移 TDH

 

 

遷移前後資料處理流程 對比


CDH

星環TDH

資料抽取

Sqoop指令碼從業務資料庫抽取資料到H DFS

Transporter工具將從業務資料庫同步資料到企業級資料倉儲Inceptor中,一步完成資料E TL

資料載入

Shell指令碼將H DSF 資料load到Hive

批數加工

Hive中執行批處理SQL  

Inceptor裡面執行批處理,相容Hive指令碼,同時具備更完整的S QL 標準、儲存過程、以及Oracle、D B2 TD等傳統資料庫方言

對客查詢

HBase的導數工具把Hive批處理結果匯入HBase,在Hbase中查詢結果

多模大資料平臺,Inceptor批處理結果直接可以透過Hyperbase對外提供高 發查詢,Hyperbase既相容H B ase  API 也可以透過標準S QL 低成本開發新業務

 

      以上就是從CDH到星環一站式多模型大資料平臺TDH的遷移過程介紹。

作為一家企業級大資料基礎軟體開發商,星環科技始終堅持自主研發與技術創新,並注重技術的落地應用,幫助各行各業的使用者提供國產化大資料基礎軟體,為企業數字化轉型提供強大的技術支撐。

 

連結:

1 . 手把手教你安裝 TDH8.1.0    https://mp.weixin.qq.com/s/AVsAMt01cXnMd2Sc79Iehw

2 . 星環科技 TDH8.1.0:全新升級為使用者帶來極致體驗   https://mp.weixin.qq.com/s/gwQU-74JMrihs8JVlvnp-A

3 . 便捷、高效、智慧—從運維視角看星環科技大資料基礎平臺TDH    https://mp.weixin.qq.com/s/IfhWYPIWkqqGXNZ4IrT8xA


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2871291/,如需轉載,請註明出處,否則將追究法律責任。

相關文章