從ETL到DataOps:WhaleStudio替代Informatica,實現信創化升級

海豚调度發表於2024-11-25

作者 | 白鯨開源 姜維

在資料整合和排程的領域,Informatica曾經是公認的權威工具。其強大的ETL功能、多年積累的市場經驗,使其成為眾多企業資料處理的核心工具。

然而,隨著新一代大資料平臺的迅速崛起,以及信創化改造的要求愈發嚴格,Informatica在現今複雜多變的生產環境中逐漸顯現出不足之處。

相比之下,白鯨開源的WhaleStudio憑藉其靈活、開源的架構設計、雲資料來源和信創資料來源的適配,已逐漸成為替代Informatica有力的解決方案。

Informatica在現代資料開發環境下的缺點

隨著新一代大資料平臺開發方法的興起以及國內信創化改造要求,Informatica已經無法完全滿足實際生產環境需要:

1. 無法適配新興大資料環境的靈活性

Informatica的技術架構無法滿足如Hadoop、星環、Spark、Flink、Doris、Hudi、Iceberg等新興大資料平臺的需求。其處理方式難以跟上這些新技術的演進速度和複雜性。而WhaleStudio在這方面表現優異,能夠與主流大資料平臺無縫整合。其DataOps能力確保了批處理與流處理的統一,支援使用者快速、靈活地進行大規模資料的處理和分析,滿足現代企業對實時和高效資料處理的需求。

2. 無法支援國產信創資料庫及作業系統

隨著信創化的深入,企業逐漸轉向使用國產資料庫和作業系統,如GaussDB、華為MRS、TiDB、達夢、人大金倉,以及統信和麒麟作業系統。Informatica在這方面的支援有限,無法完全適應國內市場的需求,特別是在信創合規性要求下,已經明確無法滿足合規要求。

而WhaleStudio在作為中國原創的全球開源原生企業,其商業版本在原創的Apache DolphinScheduler和Apache SeaTunnel基礎上,直接加入了提供了對這些國產系統的全面支援,並完成相關信創認證。

尤其在多雲和信創環境下的部署能力及效能,更是遠超同類國內外產品,使得使用者能夠根據業務需求靈活選擇最佳技術方案,實現真正的信創化合規。

3.服務的持續性和服務保障

隨著Informatica退出中國市場,客戶在續簽合同和獲取技術支援方面遇到了嚴重挑戰,這直接威脅到企業資料專案的穩定性和安全性。

WhaleStudio不僅作為國產開源專案(Apache DolphinScheduler+Apache SeaTunnel),擁有本地化的技術支援團隊,還擁有超過6000+使用者,5W個人使用者的社群。使用者可以依賴這一支援網路獲得快速的技術響應和持續服務保障,避免了因服務中斷而帶來的風險。

4.從ETL到DataOps的全面升級

Informatica固有的ETL架構在處理超大規模和實時資料時面臨挑戰,難以滿足當前對資料湖和實時資料倉儲的需求。而WhaleStudio的DataOps架構超越了傳統的ETL模式,採用EtLT(Extract, transform, Load, and Transform)架構,不僅能實現批流一體化,還能支援動態和複雜的資料流轉。

DataOps旨在透過自動化和標準化的流程實現更快速、更高效的資料交付。WhaleStudio透過提供多種任務型別的程式碼管理,打通Git CICD流程,完善的Code Review與上線下管理機制,實現了對複雜資料環境的高效管理。企業能夠在WhaleStudio上進行從資料提取到實時處理、批次開發、程式碼管理、上下線管理的一站式操作,使其比Informatica更加靈活和高效,更適應現代資料開發的管理需求。

DataOps作為一種資料運營和管理實踐,強調了資料團隊的敏捷性和協作性。WhaleStudio整合了DataOps理念,將開發、運維和資料管理整合在一起,提供從開發到生產的無縫銜接。相較於Informatica的傳統操作,WhaleStudio的DataOps解決方案能幫助企業實現更快的資料交付週期、更高的自動化程度以及更低的錯誤率。

透過DataOps,WhaleStudio實現了資料工作流的持續最佳化和快速迭代。企業在使用WhaleStudio時,不僅能有效管理和監控資料流,還能根據需求進行快速調整,保持資料系統的高效運作。

WhaleStudio的DataOps能力透過支援CICD、持續交付和實時監控,提供更高的透明度和靈活性。資料管道的構建、測試和部署被高度自動化,減少了人為錯誤和延誤,確保了系統的穩定執行。

Informatica遷移至WhaleStudio的架構升級

WhaleStudio 可以全面替換 Informatica,讓使用者一站式升級至支援資料湖/大資料/資料倉儲/實時資料倉儲/信創資料庫,支援使用者快速升級至全球領先的DataOps平臺。

從以上的架構圖可以看到WhaleStudio可以全面替換Informatica的功能:

01 資料來源接入和處理層

在Informatica架構中,SAP、Oracle、MySQL等資料來源透過Maplet被處理並匯入ODS層。

Informatica透過複雜的對映和儲存過程來實現資料的抽取、轉換和載入,這個處理流程在面對現代化資料架構時,顯得僵化和繁瑣。

相比之下,WhaleStudio透過WhaleTunnel模組直接連線到SAP、Oracle、MySQL等資料來源,提供了統一的資料接入能力。這種設計不僅簡化了資料接入過程,還提供了對實時和批處理的雙重支援,幫助企業輕鬆整合大資料和資料湖環境。

02 資料流轉和任務處理

Informatica需要透過儲存過程和其他工具將資料從ODS層傳輸到DWD層和DWA層。這個過程不僅依賴於特定的資料庫技術,還會增加維護和最佳化的複雜性。

在WhaleStudio中,資料從ODS層到DWD層再到DWA層的傳輸全部透過標準化的SQL操作實現,進一步在MID(中間層)加入資料處理和最佳化環節。WhaleStudio的這種模組化架構,結合其DataOps平臺,能夠實現資料在不同層之間的自動流轉和最佳化,大幅提升了系統的靈活性和效能。

03 資料湖和實時資料支援

Informatica在設計上較難實現對實時資料倉儲和現代化資料湖的支援。而WhaleStudio透過其全棧架構和實時流處理功能,輕鬆實現了批流一體化的資料處理。

企業可以藉助WhaleStudio在傳統資料倉儲、實時資料倉儲和大資料平臺之間實現無縫的銜接和資料共享。

04 信創化環境和多樣化支援

前面圖中顯示的WhaleStudio不僅能夠支援傳統的資料倉儲架構,還可以與國內的信創資料庫和系統(如GaussDB、統信、麒麟)無縫整合。

透過SQL化和視覺化任務排程,使用者在部署和維護上具有更高的靈活性和便捷性。結合其DataOps功能,企業可以實現從資料抽取到處理和治理的自動化和標準化操作,使其一站式升級到全球領先的資料管理平臺。


透過上面幾點,我們可以清晰地看到WhaleStudio在架構設計上是如何實現對Informatica的替代。WhaleStudio以簡化的資料接入、SQL化操作、批流一體化、視覺化任務排程和自動化的DataOps能力,讓使用者可以快速升級至支援現代資料需求的全球領先平臺。

不僅解決了Informatica架構中存在的複雜性和侷限,還為企業提供了靈活、高效的開發和資料管理方式。

Informatica一站式遷移到WhaleStudio

WhaleStudio 支援直接利用WhaleScheduler圖形化呼叫Informatica Workflow,實現分階段分批遷移,同時具備多種遷移方式,滿足不同場景下的遷移需求。

這些方法包括Infa-WhaleStudio遷移工具、Excel匯入、人工批次生成、混合排程和人工遷移。

每種方法都有其優缺點,下面詳細說明:

  • 白鯨開源Infa-WhaleStudio遷移工具

優點:這種方法實現了全自動遷移,能夠自動生成對應的Mapping,經過人工確認後即可直接匯入WhaleStudio。這使得遷移過程更高效,減少了人工干預的需求,尤其適合大規模遷移任務。

  • Excel匯入

優點:Excel匯入方式邏輯簡單,開發者可以輕鬆地透過Excel模板來調整和修改資料,適合處理批次修改的遷移任務。Excel在遷移工作中提供了靈活的人工干預能力,使開發者能夠更細緻地對轉換邏輯進行校驗和最佳化。

  • 人工批次生成表同步

優點:操作簡便,一次性可以直接利用WhaleStudio多個表的資料同步任務。適合那些結構較簡單且無需複雜邏輯處理的任務。開發人員可以快速生成多個資料任務,提高開發速度和靈活性。

  • 人工遷移

優點:適用於複雜任務的遷移,能夠將原有的Mapping轉換為SQL任務,確保在遷移完成後系統不再依賴任何其他平臺。這種方式賦予開發者對每個任務的完全控制,特別適合特殊需求或業務邏輯複雜的任務。

而在遷移過當中,WhaleStudio支援“WhaleStudio+Informatica 混合排程模式”,使企業能夠實現分階段、分批次的平穩遷移。

透過直接圖形化呼叫Informatica Workflow,WhaleStudio允許使用者在新平臺上逐步匯入和執行部分Informatica任務,同時保持現有系統的正常運作。

在此雙系統並存的過渡階段,開發人員可以對遷移任務進行除錯和最佳化,減少因系統切換而產生的風險。該模式提供了更高的靈活性和安全性,確保遷移過程順暢無縫。

WhaleStudio透過多種遷移方式,使得企業能夠根據實際情況選擇最佳的遷移策略。無論是全自動的Infa-WhaleStudio遷移工具,還是靈活的Excel匯入和人工批次生成方法,開發者都可以根據具體專案的複雜度和需求,制定最適合的遷移方案。

同時,混合排程和人工遷移為複雜和定製化需求提供了保障,確保了系統遷移的靈活性和高效性。這種多樣化的支援讓使用者能夠輕鬆升級到WhaleStudio平臺,享受現代DataOps的優勢和更高效的資料管理。

某金融企業Informatica遷移WhaleStudio客戶案例

以下是某金融企業Informatica遷移WhaleStudio具體客戶案例:

資料倉儲與ETL工具替換架構圖

該金融企業的遷移方案是將原有的Teradata+Informatica架構替換為GaussDB+ WhaleStudio,形成一個全信創的技術棧。

以下是具體的技術方案描述:

資料來源接入與排程

在原有架構中,企業使用Informatica PowerCenter來從檔案系統、Oracle和MySQL等資料來源獲取資料,並透過BTEQ和FastLoad將資料傳輸至Teradata中的ODS層。然而,這種架構需要多種工具來實現資料同步和排程(如Automation和Informatica),工具之間缺乏統一性,增加了系統複雜性。

在遷移後的架構中,WhaleStudio透過WhaleTunnel模組實現了對檔案、Oracle、MySQL等資料來源的直接接入。這種設計不僅簡化了資料來源的接入,還將排程和資料傳輸整合在一個平臺上,減少了工具之間的依賴,提升了操作的流暢性和維護的便捷性。

資料流與處理層

在原有方案中,資料從ODS層透過SQL任務逐層傳遞到SDATA、PDATA、MID,最終到達PMART層,形成資料倉儲的完整結構。Informatica負責資料的排程和同步,而Automation負責資料倉儲當中的流程管理和自動化任務,這使得整個資料流轉過程分散在不同工具中。

WhaleStudio方案中,資料從WhaleTunnel接入後,透過SQL任務依次傳輸到ODS、SDATA、PDATA、MID和PMART層。WhaleStudio的WhaleScheduler模組在此過程中負責所有資料排程、傳輸和轉化任務,無需再依賴外部工具進行額外的排程操作。這樣,資料流的所有步驟均在一個平臺內完成,減少了系統耦合性並提高了可維護性。

資料庫架構與信創合規

遷移方案中,資料倉儲從原有的Teradata遷移到GaussDB,確保整個方案符合信創合規要求。GaussDB作為底層儲存解決方案,而Informatica無法支援新創相關產品和環境。而WhaleStudio有多個新創產品體系認證,結合結合WhaleStudio的DataOps功能,提供了從資料接入、處理到儲存的全流程管理。WhaleStudio支援透過SQL和視覺化介面對這些步驟進行操作和監控,使資料工程師能夠更高效地管理和最佳化資料流,實現全面新創合規。

自動化與批次處理

在原有架構中,Teradata BTEQ和FastLoad工具被用於批次資料載入和轉換。這些工具雖然功能強大,但需要手動配置和額外的操作步驟。遷移到WhaleStudio後,企業透過其內建的自動化任務和批處理功能,能夠更輕鬆地配置和執行復雜的資料流。所有資料的批次處理和排程都可以在WhaleStudio中透過簡單的圖形化介面進行設定和監控。

端到端資料管理與未來擴充套件

新的技術方案透過WhaleStudio實現了從資料來源到PMART資料集市的端到端排程和整合,提供了一個完整的DataOps解決方案。企業未來可以在此基礎上引入資料湖、大資料平臺該和OLAP引擎,進一步支援實時資料分析和更復雜的資料處理場景,確保架構具備良好的擴充套件性和應變能力。

遷移過程與結果

從WhaleStudio遷移到Informatica的過程中,整個專案涉及到多個技術環節和遷移步驟。遷移方案中,不僅包含資料倉儲的遷移,還涉及SQL指令碼的轉換和遷移過程,確保遷移後的系統能夠無縫銜接新架構。

遷移過程

  • 任務遷移與整合:在遷移過程中,專案涵蓋了Informatica + Automation組合的3000多個任務。其中,使用自動匯入、Excel匯入和人工批次生成等方式順利遷移了超過2900個任務,極大提高了遷移的效率。

  • 任務最佳化:遷移過程中,對90個任務進行了整合和最佳化,以簡化工作流程和提升整體系統效能。這一步驟確保了在過渡到新環境時,業務邏輯能夠得到精簡和改進。

  • 手動轉換:餘下的30多個複雜任務涉及到高階邏輯和自定義處理,必須手動將Informatica中的複雜任務邏輯轉換為GaussDB SQL指令碼,在ODS層進行進一步處理。這一環節確保了複雜的業務邏輯能夠正確對映到新的系統環境中。

專案週期與並行工作

整個Infa+Automation的遷移專案週期為3個月,由3名技術人員負責實施。同時,與資料倉儲遷移廠商保持並行工作,共同推進專案進行,總並行期為6個月。透過這種並行工作模式,確保了遷移工作的高效執行和資源的充分利用。

遷移效果

遷移完成後,使用者全面切換到信創環境,並完成DataOps流程初步佈局

整體信創包括適配了信創資料庫、信創作業系統和信創ETL及大資料開發工具。這不僅使企業實現了自主可控的技術架構,還滿足了國家對信創合規的要求。

此外,作為二期工程,本平臺準備適配了大資料部門的Hive+Spark場景,同時完成整體DataOps流程,為企業提供了一套統一的開發、排程和同步的DataOps工具,快速滿足基於資料倉儲、大資料和資料湖的需求:

遷移後的系統能夠支援跨系統開發和部署流程,確保了不同系統間的高效整合和協作和CICD工作。同時,企業還受益於完善的售後支援體系,提供持續的技術支援和維護,保障了系統的穩定執行和未來擴充套件的可能性。

小結

WhaleStudio作為現代化DataOps平臺,以其活躍的開源社群、接近200種資料來源的適配,一流的排程和開發功能、批流一體化支援和全面的信創適配,成為替換Informatica的理想選擇。

透過統一的排程和整合,WhaleStudio簡化了開發流程,提升了資料處理效率,尤其在信創合規的環境中展現了極高的適應性。其遷移方法多樣且有效,包括自動遷移工具、Excel匯入、人工批次生成及手動轉換,確保複雜任務的精準遷移。

實際案例中,企業能夠透過Infa+WhaleStudio混合模式實現平穩的分階段遷移,在短時間內成功完成數千個任務的轉換與最佳化,最終實現WhaleStudio對Informatica的全面替換。

遷移後,使用者不僅獲得了更簡化的開發流程和高度整合的資料處理能力,還支援多系統協同和未來的擴充套件需求,充分體現了WhaleStudio在現代資料管理中的巨大優勢。

本文由 白鯨開源 提供釋出支援!

相關文章