從困境到突破,EasyMR 叢集遷移助力大資料底座信創國產化

袋鼠云数栈發表於2024-08-07

在大資料時代,企業對資料的依賴程度越來越高。然而,隨著業務的不斷髮展和技術的快速迭代,大資料平臺的叢集遷移已成為企業資料中臺發展途中無法迴避的需求。在大資料平臺發展初期,國內資料中臺市場主要以國外開源 CDH、商業化 CDP、HDP 為主。然而,由於國際形勢的轉變,以海外大資料基礎平臺作為基石構建的資料中臺面臨著極為嚴峻的安全挑戰。

● Cloudera 和 Hortonworks 產品開啟付費訂閱模式

自2021年1月31日起,Cloudera 旗下的所有軟體不再提供社群版,轉而採用需付費的訂閱模式,並且訂閱費用頗高。

● 企業版停止更新和服務

Cloudera 和 Hortonworks 合併後,推出的新平臺 CDP 是 CDH 和 HDP 的最後版本,企業使用者無法獲取新功能和效能提升,並且2022年3月後停止售後支援。

● 國際事件導致的供應中斷風險

如俄烏事件,Oracle、Google、蘋果、英特爾等公司相繼停止對俄業務,進一步暴露外國軟體供應鏈的脆弱性和風險。

面對複雜多變的國際局勢,我國陸續推出相應政策推動信創產業發展。比如國資委就要求,從23年初開始,每個季度要上報信創系統的替換進度。並要求在2027年底前,實現中央企業的資訊化系統國產化替代。

因此,無論是因為 CDH 不再維護,還是為了實現國產化替代,或者是為了追求更高的效能和安全性,大資料叢集遷移的需求都愈發迫切。

EasyMR 作為一款領先的大資料儲存計算平臺,深刻理解企業在叢集遷移過程中面臨的挑戰和痛點,其 EasyManager 大資料運維管理平臺推出了功能強大的「叢集遷移」模組,為企業提供一站式的叢集遷移解決方案,助力企業在確保資料安全和完整性的同時,輕鬆高效地完成叢集遷移工作。

多叢集配置支援:一站式管理

支援多種大資料平臺的叢集配置,包括 EMR、CDH、CDP、HDP 和 NDH。無論企業當前使用的是哪種平臺,將要遷往哪種平臺,EasyManager 都能無縫相容,為企業提供靈活的遷移選擇。

這種多叢集配置支援,不僅簡化了遷移操作,還提高了企業的靈活性,讓企業能夠根據實際業務需求,選擇最合適的大資料平臺。

file

叢集跨域互信檢測

叢集遷移中源叢集與目標叢集可能分佈在不同的物理位置或不同的網路環境中,甚至跨越不同的企業和組織。在這種複雜的環境下,確保叢集之間的互信是保障資料安全和穩定執行的前提。

跨域互信檢測的主要目的是:

· 確保叢集間的安全通訊:防止未經授權的訪問和資料洩露

· 驗證叢集間的身份認證:確保只有可信的叢集才能進行資料交換和協同計算

· 保障資料完整性和一致性:防止資料在傳輸過程中被篡改或丟失

遷移排程策略:靈活的任務控制

在叢集遷移過程中,合理的任務排程和併發控制至關重要。EasyMR 提供了配置遷移排程策略的功能,允許企業根據自身的業務需求和資源狀況,靈活地設定遷移任務的網路頻寬和併發度。

透過靈活排程策略設定,企業可以最大化地利用現有網路、計算資源,確保遷移過程高效、有序地進行。同時,任務併發控制功能還能有效防止系統過載,保障系統的穩定執行。

file

資料一致性校驗:保障資料準確性

在大資料叢集遷移過程中,資料一致性校驗是確保資料完整性和準確性的關鍵步驟。EasyMR 針對資料一致性校驗提供了一整套詳細而強大的功能,幫助企業在遷移過程中保證資料的準確性和一致性。

file

● Schema 採集和表結構對比

· Schema 採集

Schema 採集是指從源叢集和目標叢集中提取資料庫的結構資訊,包括表名、欄位名、欄位型別、索引、約束等。這些資訊是進行表結構對比的基礎。

· 表結構對比

在遷移過程中,對比源叢集和目標叢集的表結構是確保資料一致性的第一步。表結構對比包括以下幾個方面:

1)欄位數量對比:確保源表和目標表的欄位數量一致

2)欄位名稱和型別對比:確保欄位名稱和資料型別一致,避免因型別不匹配導致的資料錯誤

3)索引和約束對比:確保索引和約束在遷移後保持一致,保證資料操作的效率和安全性

● 記錄數採集和記錄數對比

· 記錄數採集

記錄數採集是指統計源叢集和目標叢集中各表的記錄數量,記錄數的對比可以快速檢測出是否有資料丟失或重複。

· 記錄數對比

記錄數對比主要是對比源表和目標表中的記錄數量是否一致。記錄數不一致可能表明資料在遷移過程中丟失或重複,需要進一步的檢查和處理。

● 數值 SUM 採集和數值欄位對比

· 數值 SUM 採集

數值 SUM 採集是對源叢集和目標叢集中所有數值型別的欄位進行求和操作。透過 SUM值 的對比,可以檢查出數值資料的一致性。

· 數值欄位對比

數值欄位對比是對比源表和目標表中數值欄位的 SUM 值,確保數值資料在遷移後的總和一致。這可以有效地發現數值資料在遷移過程中可能發生的偏差和錯誤。

● 字元 Max 採集和字元欄位對比

· 字元 Max 採集

字元 Max 採集是指對源叢集和目標叢集中所有字元型別的欄位進行最大值的提取,透過 Max 值的對比,可以檢查出字元資料的一致性。

· 字元欄位對比

字元欄位對比是對比源表和目標表中字元欄位的 Max 值,確保字元資料在遷移後的最大值一致。這可以有效地發現字元資料在遷移過程中可能發生的錯誤和遺漏。

● 抽樣採集和 MD5 對比

· 抽樣採集

從源叢集和目標叢集中隨機抽取一定數量的資料樣本進行對比。抽樣採集可以提高資料對比的效率,減少全量對比的時間和資源消耗。

· MD5 對比

透過對源叢集和目標叢集中的資料進行 MD5 雜湊計算,將雜湊值進行對比,確保資料的一致性。

實時監控與日誌定位

為了幫助使用者及時瞭解遷移進度和處理遷移過程中出現的問題,EasyMR 提供了詳細的頁面檢視和日誌記錄功能

● 遷移任務狀態檢視

使用者可以在頁面上實時檢視遷移任務的狀態,瞭解遷移進度和結果。

● 遷移日誌記錄和分析

系統會記錄遷移過程中的詳細日誌,使用者可以透過日誌定位和解決遷移過程中出現的問題,確保遷移任務順利完成。

file

總結

EasyMR 為企業提供安全可靠、彈性伸縮、低成本的大資料儲存與計算服務,同時支援一站式遷移解決方案。遷移流程產品化不僅簡化了操作,還提升了遷移效率和安全性。無論是資料儲存與管理,還是任務排程與控制,EasyMR 都能為企業提供全面支援。

特別是在叢集國產化替代方面,EasyMR 透過最佳化的遷移流程和強大的技術支援,幫助企業順利完成從現有環境到 EasyMR 國產環境的遷移,實現大資料叢集的平穩過渡和國產化適配。
《行業指標體系白皮書》下載地址:https://www.dtstack.com/resources/1057?src=szsm

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《資料治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或諮詢更多有關大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

相關文章