在這個資料驅動的大模型時代,資料整合的作用和意義愈發重要。資料不僅僅是資訊的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體資料整合工具,WhaleTunnel隨著WhaleStudio 2.6版本正式釋出,帶來了多項功能增強和新特性,效能大幅提升,聯結器和功能方面也有大量更新。
上週,關於資料排程平臺WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅釋出!排程模組WhaleScheduler更新78項核心功能》中已有介紹,點選連結瞭解詳情。
WhaleTunnel
WhaleTunnel是基於白鯨開源主導的Apache SeaTunnel之上精心打磨的商業級的資料整合工具,擁有資料傳輸速度快、準確率高、穩定性強等技術特點,幫助企業完成內部EtLT中資料整合EtL部分,支援百餘種聯結器型別,滿足使用者離線全量同步、離線增量同步、實時增量同步、變化資料捕捉(即CDC)、資料庫同步備份等需求。快速產品以程式碼形式面向資料開發工程師以及任何需要資料整合服務的使用者,同時也提供視覺化拖拽介面給資料科學家、資料分析師、產品經理等業務使用者,支援全流程視覺化的任務定義、呼叫、監控和管理。
資料來源更新(部分)
2.6版本新增了多種資料來源,資料來源支援數量已經達到了188個,部分增加的資料來源如下:
信創ARM CPU最佳化
在WhaleTunnel 2.6版本當中,Zeta Engine針對以ARM核心的CPU進行了引擎層面的深度最佳化,效能提升數倍(相關效能POC報告後續釋出)。
- 記憶體對映檔案和零複製技術: 為了最大限度地減少I/O開銷,Zeta Engine採用了記憶體對映(mmap)技術和零複製(zero-copy)技術,直接在記憶體中操作檔案資料。這樣不僅加快了資料處理速度,還降低了系統資源的消耗。
- 記憶體對齊:Zeta Engine確保資料結構在記憶體中的對齊性,有效減少了記憶體訪問的開銷。記憶體對齊最佳化不僅提高了記憶體訪問的效率,還提升了資料處理的整體效能。
- 高效演算法: Zeta Engine使用了適合ARM架構的高效演算法,減少不必要的計算和資料移動。透過高效的排序和過濾演算法,顯著提升資料轉換和處理的效率。Zeta Engine演算法最佳化確保了在資料密集型任務中,系統能夠保持卓越的效能。
- 多核架構利用: Zeta Engine充分利用ARM CPU的多核架構,將ETL任務分解為更小的任務,進行多執行緒或多程序並行執行。透過並行化處理,顯著縮短了資料處理的時間,提升了系統的吞吐量。
資料模型及自動建表能力加強
- 自動建表、已有資料處理: 除了檔案型別的資料來源外,所有資料來源現支援自動建表。無論是已有表結構還是已有資料處理,WhaleTunnel都能輕鬆應對。同時,目標端支援自定義表名策略。無需手動處理複雜的表結構,極大地減少了資料整合的時間和人工成本。
-
資料模型推演: 在任務儲存時自動觸發,自動檢查source、transform、sink中的配置是否合法;在任務重同步表發生表結構變化時,檢查其變化可能導致的配置項非法問題。確保資料流的穩定性和一致性,減少因配置錯誤導致的資料同步失敗。在執行資料整合任務之前,就可以自動識別潛在的問題並提前修復。
圖片 -
資料型別自動對映: 資料來源到目標端的資料型別自動對映。自動適配不同的資料型別,減少手動調整的麻煩。從不同資料庫遷移資料時,無需擔心型別不匹配的問題。
與WhaleScheduler全面整合
- 增量同步和引數傳遞: WhaleTunnel與WhaleScheduler緊密整合,根據排程中的日曆、業務日期(牌)以及上下游引數進行增量同步或者引數傳遞來進行資料內容控制,進一步提高資料同步的靈活性和準確性。例如,在券商監管報表生成時,能夠自動獲取符合上報規則交易日期的資料,確保資料的準確性。
- 獨立同步排程任務元件: WhaleTunnel擁有獨立的CDC實時排程元件和批次排程元件,可以在WhaleScheduler成為獨立任務元件被上下游進行觸發等工作,實現更靈活的任務排程和管理。在資料整合之後,進行相關資料加工,或者自定義微批任務,實現微批任務的序列等待等。
- 增量資料引數傳遞: 離線全量Source支援根據自定義where條件讀取,可以使用排程傳遞的引數變數實現增量資料引數傳遞,精準控制資料同步範圍,實現增量/批次/微批的多場景控制,提升整體資料批次和CDC實時處理能力。
加強可觀測性與監控告警
-
離線同步新增支援失敗、超時告警, 提前預警潛在問題,減少資料同步失敗帶來的影響。舉例來說,在夜間批處理任務中,能夠及時發現並處理異常,確保資料同步的順利進行。
-
實時同步新增失敗告警、實時同步新增DDL變更事件告警:實時監控資料同步狀態,快速響應和處理異常情況。例如,電商平臺可以及時發現和修正訂單資料同步中的問題,確保業務的連續性,可以讓使用者快速收到DDL變更情況,從而更早的手工干預。
透過虛擬表支援非結構化資料視覺化轉化
-
檔案資料來源: 新增支援 CSV檔案型別以壓縮格式讀寫,支援讀取時跳過表頭和寫入時寫入表頭設定,支援新的檔案格式:DBF, Debezium-Json, 更靈活地處理不同格式的檔案資料,提高資料匯入匯出的效率。
-
No-SQL資料來源支援: 建立虛擬表時支援配置主鍵,且sink自動建表時使用該主鍵建表,提高資料一致性和查詢效率。例如,在處理NoSQL資料時,可以更好地管理和索引資料。
3. 虛擬表支援設定索引
4. HTTP資料來源虛擬表最佳化: 最佳化資料來源和虛擬表配置,token、路徑、請求引數等支援填寫引數變數,更靈活地整合和管理HTTP資料來源,提高資料獲取的靈活性和效率。
CDC同步增強功能
-
唯一索引表同步: CDC同步源表現支援擁有唯一索引的表同步,確保資料的唯一性和完整性。例如,在使用者資訊同步時,可以確保使用者ID的唯一性,避免資料重複和衝突。
-
無主鍵表同步: CDC同步源表支援無主鍵表的同步,提供更廣泛的資料同步支援,適應更多樣化的資料庫設計。例如,在某些歷史資料表中,可能沒有主鍵的設計,但仍然可以實現高效的資料同步。
小結
WhaleTunnel 2.6版本功能非常強大,涵蓋了從資料模型設計、自動化建表,到高效的資料同步和監控告警,以及多樣化的資料來源支援。無論您的資料整合需求是簡單的資料傳輸還是複雜的實時分析,WhaleTunnel都能為您提供定製化的解決方案,幫助您實現資料驅動的業務成功。
我們期待與您一同迎接資料整合的新時代!如果您對WhaleTunnel 2.6版本有任何疑問或想了解更多資訊,請隨時聯絡我們的客戶服務團隊。感謝您對WhaleTunnel的信任和支援!
白鯨開源
白鯨開源是一家開源原生的DataOps商業公司,是國家高新技術企業,由多個Apache Foundation Member成立,80%員工都是 Apache Committer,運營2個全球Apache開源專案(DolphinScheduler, SeaTunnel)。白鯨開源已根據全球最佳實踐釋出商業版產品WhaleStudio(含白鯨資料排程平臺WhaleScheduler和白鯨資料整合平臺WhaleTunnel)。我們致力於打造下一代開源原生的DataOps 平臺,助力企業在大資料和雲時代,智慧化地完成多資料來源、多雲及信創環境的資料整合、排程開發和治理,以提高企業解決資料問題的效率,提升企業分析洞察能力和決策能力。
聯絡方式
- 公司網站: www.whaleops.com
- 聯絡郵箱: service@whaleops.com
如果您希望深入瞭解我們的其他功能,或者討論如何將 WhaleStudio 與你的業務流程相結合,我們非常願意為你提供幫助。歡迎您首先試用白鯨排程系統(WhaleScheduler),開始您的大資料之旅。
本文由 白鯨開源 提供釋出支援!