教你三步實現CDH到星環TDH的平滑遷移
Transwarp Data Hub(TDH) 是星環科技自主研發的企業級一站式多模型大資料基礎平臺,其領先的多模型技術架構提供統一的介面層,統一的計算引擎層,統一的分散式儲存管理層,統一的資源排程層,以及異構儲存引擎層。8種異構儲存引擎可以支援包括關係表、文字、時空地理、圖資料、文件、時序等在內的10種資料模型。存算解耦特性支援彈性擴充套件,讓資源配置更靈活 。
星環一站式多模 型 大資料基礎平臺TDH架構圖
TDH能夠儲存PB 級別的海量資料,同時能夠提供高效能的查詢搜尋、實時分析、統計分析、預測性分析等資料分析功能,被廣泛應用在離線資料批處理、高併發的線上資料服務、資料集市、資料倉儲、資料湖、圖儲存分析、空間資料儲存、實時資料處理等各類大資料業務場景。
目前 TDH 已經在政府、金融、能源、製造業等十多個行業內落地,可以替代Oracle、IBM DB2、Teradata等傳統主流資料庫在分析型場景中的應用及替代 CDH在大資料平臺的應用 ,幫助企業,更全面、更便捷、更智慧、更安全地運用資料,加速企業數字化轉型。
本文將基於某金融機構的資料倉儲批處理場景來手把手 帶領大家 “三步” 完成 CDH到 星環 TDH的平滑遷移。
CDH叢集及業務場景
某 金融機構基於CDH構建了 離線 數倉和對客高併發查詢業務,完整業務場景包括:
l 資料抽取,通過Sqoop基本從業務資料庫中抽取資料到分散式檔案 HDFS ;
l 資料載入,通過 S hell指令碼將資料Load到離線數倉Hive中,儲存為orc格式;
l 資料加工,通過Hive指令碼做資料離線批處理加工,支撐營銷、風控等業務;
l 對客查詢,部分結果load到 HB ase對客提供高併發查詢服務;
實際客戶場景涉及數千張表和指令碼,百 TB 級別資料量,這裡我們對其中完整邏輯做了抽象,精簡的過程便以理解遷移過程。
l CDH叢集資訊
硬體資訊 | |
節點數 |
3 |
CPU |
4 0 核/節點 |
記憶體 |
2 56G/ 節點 |
磁碟 |
1 2*1.7 T / 節點 |
軟體資訊 | |
軟體 |
版本 |
CDH |
V6 .2.1 |
Hive |
V 2.1.1 |
H base |
V 2.1.2 |
Hadoop |
V 3.0.0 |
S qoop |
V 1.99.5 |
l CDH資料處理流程
l 資料抽取(模擬資料E TL )
用Sqoop工具從業務資料庫抽取資料到Hive表。
l 批處理資料(模擬資料加工)
在Hive中執行批處理SQL,把結果寫入銷售統計表。
l 將處理結果匯入H B ase,在H B ase中查詢結果(模擬對客查詢)
* 用HBase的導數工具把Hive批處理結果匯入HBase。
* 點查
在正式遷移之前,我們需要準備好TDH的部署環境,並安裝好星環TDH,具體的安裝步驟可參考《手把手教你安裝TDH 8.1.0 》。
TDH叢集 資訊
l T DH叢集資訊
硬體資訊 | |
節點數 |
3 |
CPU |
4 0 核/節點 |
記憶體 |
2 56G/ 節點 |
磁碟 |
1 2*1.7 T / 節點 |
軟體資訊 | |
軟體 |
版本 |
TDH |
V 8.1.2 |
HDFS |
V 8.1.0 |
Inceptor |
V 8.1.0 |
Hyperbase |
V 8.1.0 |
Transporter |
V 2.2.0 |
l 星環TDH產品介紹
產品 |
使用場景 |
主要功能 |
分散式檔案系統 Transwarp Distributed File System (TDFS) |
提供 Inceptor、Hyperbase等產品所需要的檔案讀寫功能,也可以直接通過介面為客戶提供分散式檔案系統服務 |
TDFS是用於存取PB級海量檔案的分散式檔案系統,提供了相容Hadoop生態的檔案系統API,實現了十億及以上數量級的檔案讀寫能力。 |
關係型分析引擎 Inceptor |
資料湖以及其他結構化資料的分析場景等 |
Inceptor是一款可以對數百萬張結構化資料表、PB級的海量資料進行儲存和加工的分散式關係型分析引擎。Inceptor支援絕大部分ANSI 92、99、2003 SQL標準,相容傳統關係型資料庫方言,如Oracle、IBM DB2、Teradata等,支援儲存過程,支援分散式事務,便於存量資料分析業務平滑遷移。 |
寬表資料庫 Hyperbase |
歷史資料查詢系統、面向消費者的高併發的資料查詢業務等場景 |
Hyperbase是一款能夠實現在TB到PB級資料量下毫秒級響應延時、百萬級高併發檢索的NoSQL寬表資料庫。Hyperbase與Inceptor組合,可以為開發者提供良好的SQL相容性和儲存過程的開發能力,支援多種型別的索引技術,支援存放結構化資料以及圖片、文字等非結構化資料,能夠實現結構化和非結構化資料的混合儲存。 |
大資料整合工具Transporter |
資料湖、資料倉儲 |
Transporter是視覺化的ETL開發工具,將分散於各個地方、各種平臺上的各種型別的資料同步或整合到大資料平臺上,通過簡潔、統一的視覺化介面快速配置資料流轉流程,實現異構平臺和資料來源之間的資料整合。Transporter自研的快速資料同步技術,提供了分散式事務能力,保證了資料在跨平臺之間流轉時的準確性和一致性。 |
在安裝好TDH及服務之後,我們需要安裝 星環大資料平臺資料備份恢復軟體Transwarp B ackup (TBAK) , 之後我們就可以在TBAK的視覺化介面通過簡單的“三步”來實現CDH到星環TDH的平滑遷移。
Transwarp B ackup (TBAK) 是星環的大資料 平臺資料備份恢復軟體 , 可獨立於生產叢集與備份叢集之外,具備災備方案制定與排程災備任務的功能。同時,災備系統提供了視覺化的操作頁面以及豐富的統計監控頁面,使用者通過瀏覽器進行簡單的操作即可直觀的設計災備方案、分析災備任務 , 從而完成叢集的資料備份、同步、遷移。
三步實現CDH到星環TDH的平滑遷移
Step 1配置CDH 和TDH 叢集
該步驟主要是用來配置CDH和TDH叢集,為後續資料遷移做準備。 星環 TBAK提供視覺化的介面進行叢集配置,我們根據介面指引式嚮導進行配置即可完成,簡便快捷。
l CDH叢集配置
首先新建一個CDH叢集配置,我們可以在叢集配置介面設定CDH叢集名稱,協議,CDH Manager IP,埠,使用者名稱和密碼等資訊。
當叢集資訊配置完成並校驗成功後,我們就可以獲取到配置檔案。之後我們需要對各服務進行配置並測試連線,在該案例場景中使用的是HDFS,HBase和Hive。
l TDH叢集 配置
同樣,我們對TDH叢集進行相應配置。
Step 2建立CDH遷移方案
當CDH和TDH叢集配置完成後,我們就可以配置CDH到 TDH的遷移方案了。根據該案例CDH的業務情況,我們需要分別對CDH Hive,HDFS和HBase的遷移方案進行配置。
l 建立CDH Hive遷移方案
以CDH Hive遷移方案為例,TDH提供服務級和表級的遷移策略,例如這裡我們在同步型別中選擇“CDH到TDH Hvie表遷移”,同時我們可以對源叢集,災備叢集,排程策略等進行配置。在排程策略中使用者可以根據實際情況進行配置,我們可以設定在業務空窗期的每天凌晨2點進行資料遷移。同時,使用者可以設定相應的告警策略,當遷移發生問題時可以第一時間收到告警資訊並對問題進行排查和恢復。
與建立 CDH Hive遷移方案 的操作步驟相同 , 我們可以 對CDH HFDS和HBase的遷移方案進行配置。
Step 3 執行 遷移任務 和結果檢查
當叢集配置完成後,所有的遷移方案將在遷移方案介面進行管理和操作。我們可以選擇相應的遷移方案進行操作,例如立即執行和設定執行策略。
l 執行遷移任務
點選執行遷移任務之後,系統進入到自動遷移狀態,我們可以監測遷移任務執行的整體狀態資訊,並且可以對每一步的執行情況進行實時監測,例如成功,失敗,告警,執行中和未執行。當遷移發生故障時,我們會收到執行故障的告警, 並 對故障發生的階段進行排查和故障恢復。
l 遷移結果檢查
當所有遷移步驟都顯示成功後,我們可以對遷移前後的情況進行檢查確認。
l Hive遷移
遷移前CDH Hive表
遷移前TDH Inceptor對應表不存在
遷移後TDH Inceptor對應表查詢結果
如上檢查,我們可以確認 CDH Hive表 遷移成功。同樣 地 ,我們對HDFS和HBase遷移情況進行檢查 以確認遷移已成功 。
至此,CDH到TDH的遷移工作就全部完成了。
整個遷移過程均在視覺化介面完成,邏輯清晰,操作簡單,配置靈活,通過3步即可完成所有的遷移工作,同時使用者可以對遷移過程進行全流程實時監控,保障整個遷移過程順利進行。
遷移後TDH資料處理流程
接下來我們來看看CDH遷移到TDH後的資料處理流程。
l 資料E TL (抽取+載入)
在星環大資料開發工具Transwarp Data Studio(TDS)中配置資料同步,從業務資料庫抽取資料到星環關係型分析引擎Inceptor中。
l 資料加工
I nceptor 高度相容Hive, 批處理 任務基本不需改動即可以遷移到Inceptor執行。
與 CDH要手動向H B ase匯入資料不同,TDH中可以直接把批處理結果寫入 H yperbase表 中。
l Hyperbase提供對客高併發查詢
Transwarp Hyperbase支援SQL和API兩種查詢方式,使用者可以根據實際情況進行選擇。
l S QL 查詢方式
對傳統資料庫開發人員友好,門檻低,新業務開發和維護成本低。
l API 查詢方式
星環TDH 對原來基於C DH 開發的應用相容性高, 原先 業務可以平滑遷移 到TDH 。
遷移前後資料處理流程 對比
|
CDH |
星環TDH |
資料抽取 |
用Sqoop指令碼從業務資料庫抽取資料到H DFS |
用Transporter工具將從業務資料庫同步資料到企業級資料倉儲Inceptor中,一步完成資料E TL |
資料載入 |
用Shell指令碼將H DSF 資料load到Hive | |
批數加工 |
在Hive中執行批處理SQL |
在Inceptor裡面執行批處理,相容Hive指令碼,同時具備更完整的S QL 標準、儲存過程、以及Oracle、D B2 、TD等傳統資料庫方言 |
對客查詢 |
用HBase的導數工具把Hive批處理結果匯入HBase,在Hbase中查詢結果 |
多模大資料平臺,Inceptor批處理結果直接可以通過Hyperbase對外提供高 並 發查詢,Hyperbase既相容H B ase API 也可以通過標準S QL 低成本開發新業務 |
以上就是從CDH到星環一站式多模型大資料平臺TDH的遷移過程介紹。
作為一家企業級大資料基礎軟體開發商,星環科技始終堅持自主研發與技術創新,並注重技術的落地應用,幫助各行各業的使用者提供國產化大資料基礎軟體,為企業數字化轉型提供強大的技術支撐。
連結:
1 . 手把手教你安裝 TDH8.1.0 https://mp.weixin.qq.com/s/AVsAMt01cXnMd2Sc79Iehw
2 . 星環科技 TDH8.1.0:全新升級為使用者帶來極致體驗 https://mp.weixin.qq.com/s/gwQU-74JMrihs8JVlvnp-A
3 . 便捷、高效、智慧—從運維視角看星環科技大資料基礎平臺TDH https://mp.weixin.qq.com/s/IfhWYPIWkqqGXNZ4IrT8xA
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2871291/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 如何實現CDH到雲原生大資料平臺的快速平滑遷移?大資料
- CDH/HDP遷移之路
- 小米Kylin平滑遷移HBase實踐
- DNS平滑遷移操作流程DNS
- 資料庫平滑遷移方案與實踐分享資料庫
- 星環科技平滑遷移方案加速國產化替代,助力大資料基礎軟體自主可控大資料
- 256變4096:分庫分表擴容如何實現平滑資料遷移?
- 設計思路-服務和庫平滑遷移
- 【Redis 技術探索】「資料遷移實戰」手把手教你如何實現線上 + 離線模式進行遷移 Redis 資料實戰指南(scan模式遷移)Redis模式
- idou老師教你學Istio06: 如何用istio實現流量遷移
- 二維網格的遷移(java實現)Java
- 20241129 虛擬環境的遷移
- 金倉資料庫資料遷移實戰:從MySQL到KES的順利遷移資料庫MySql
- 《Afterlight》中泰坦星環境的實現方法
- 360 數科實踐:JanusGraph 到 NebulaGraph 遷移
- 手把手教你遷移微信小程式到 QQ 瀏覽器微信小程式瀏覽器
- 從RabbitMQ平滑遷移到RocketMQ技術實戰MQ
- 迪普科技: IPv6部署,平滑遷移是關鍵!
- 記錄一次遷移環境 .env 出現的問題
- CentOS(7.6)環境下遷移Mysql(5.7)的data目錄到指定位置CentOSMySql
- 三種方式實現平滑滾動頁面到頂部的功能
- 星環科技TDH基於Overlay網路架構為資料安全保駕護航架構
- 【試用邀請】星環科技TDH社群版:讓大資料分析觸手可及大資料
- VPGAME 的 Kubernetes 遷移實踐GAM
- VPGAME的Kubernetes遷移實踐GAM
- nginx實現平滑升級Nginx
- 遷移iOS API到前端並實現前後端分離(非Node.js)iOSAPI前端後端Node.js
- 【Redis 技術探索】「資料遷移實戰」手把手教你如何實現線上 + 離線模式進行遷移Redis資料實戰指南(離線同步資料)Redis模式
- xtts遷移實踐TTS
- 網易雲 MySQL例項遷移的技術實現MySql
- Kompose:Docker-compose到Kubernetes的遷移工具Docker
- 從 MySQL 到 WuTongDB 的遷移指導:理論與實踐框架MySql框架
- 1.2 使用OGG實現全量和增量遷移
- 遷移 Express 到函式計算Express函式
- 遷移WSL Ubuntu到其他目錄Ubuntu
- 使用GoldenGate 遷移Oracle到PostgreSQL/LightDBGoOracleSQL
- RTX 騰訊通停止服務,有哪些平滑升級遷移替代方案?
- 5. ActiveMQ平滑遷移到kafkaMQKafka