現代ETL工具與傳統解決方案清單附對比

趙鈺瑩發表於2018-05-23

  通常,企業在知曉編寫程式碼和構建內部解決方案所需的成本和複雜性之後,首先會意識到對ETL工具的需求。提取,轉換和載入(ETL)工具使企業能夠在不同的資料系統中訪問有意義且可用的資料。

  企業也可嘗試組裝開源ETL工具。有時,這種方法更節省成本,同時可自定義需要的功能,提供更多靈活性和支援。但是,如果企業內部不具備相關技術人才,選擇商用解決方案可以免去很多麻煩,也可以獲得更好的服務。

  本文列舉了現代ETL工具與傳統商用解決方案,現代ETL工具通常是基於雲的解決方案,並提供端到端的支援,支援不斷增長的基於網路的資料流列表(這不是一份完整清單,但它確實涵蓋了主要產品)。

現代ETL工具與傳統解決方案清單附對比

  現代ETL工具

  隨著對實時資料訪問需求的增加,企業體系結構發生根本變化。今天的模型基於流處理和分散式訊息佇列,如Kafka。現代ETL工具套件以實時流資料處理和雲端計算為基礎,可與雲資料倉儲良好整合,並支援日益增多的資料來源和資料流。

  ·Alooma

  Alooma是為雲構建的企業資料管理平臺。Alooma為資料團隊提供了現代的,可擴充套件的,基於雲的ETL解決方案,可實時將來自所有資料來源的資料彙集到資料倉儲。

  錯誤處理:處理,監控/報告,重新定義

  ·Confluent

  Confluent是一個基於Apache Kafka的全面資料流平臺,能夠在資料流中釋出和訂閱,也可儲存和處理資料,Confluent提供了其平臺的開源版本。

  錯誤處理:僅監控

  ·Fivetran

  Fivetal是一款SaaS資料整合工具,可從不同雲服務,資料庫和商業智慧(BI)工具中提取資料並將其載入到資料倉儲。

  錯誤處理:僅監控

  ·FlyData

  FlyData是一款SaaS資料遷移工具,可用於管理MySQL,PostgreSQL,MariaDB,Percona中的資料載入過程,並以CSV / TSV / JSON格式記錄到Amazon Redshift資料倉儲。

  錯誤處理:有錯誤處理,需要緩衝

  ·Matillion

  Matillion提供專門為Amazon Redshift,Google BigQuery和Snowflake構建的雲資料整合ETL工具。

  錯誤處理:透過程式碼支援,不內建

  ·SnapLogic

  SnapLogic為雲資料來源,SaaS應用程式和本地商業軟體應用程式提供資料整合平臺即服務。

  錯誤處理:支援,但不內建

  ·Stitch Data

  Stitch是一款雲優先的開發者專用工具,用於快速移動資料。

  錯誤處理:手動,記錄在rejection表中

  ·StreamSets

  StreamSets是雲本地產品集合,用於控制資料漂移,資料,資料來源,資料基礎架構和資料處理方面的變化。

  錯誤處理:有錯誤記錄處理

  ·Striim

  Striim(發音為“stream”)是一個實時流媒體分析和資料整合平臺。

  錯誤處理:僅監控

現代ETL工具與傳統解決方案清單附對比

  傳統商用解決方案

  商用ETL工具構成ETL工具市場的大部分 - 因為其在各個領域積累的使用者群,因此商用ETL工具的預裝客戶群是可觀的。其中,一些工具包括套件是為了解決特定問題而出現的,它們儲存在傳統的單一資料庫和系統中。不過,供應商已經準備好提供工具來遷移這些資料。

  ·IBM InfoSphere Information Server

  IBM InfoSphere Information Server是一個ETL工具,是IBM資訊平臺解決方案套件和IBM InfoSphere的一部分,使用圖形介面構建資料整合解決方案,並提供各種版本(伺服器版,企業版和MVS版)。

  ·Informatica PowerCenter

  Informatica PowerCenter是ETL產品套件的通用名稱,包括PowerCenter客戶端工具、和儲存庫。資料儲存在由客戶端工具和伺服器訪問的儲存庫中,操作在伺服器上執行,伺服器連線源和目標以獲取資料,應用所有轉換並將資料載入到目標系統中。

  ·iWay Software

  Information Builders的iWay Integration Suite提供應用程式和資料整合功能,包括iWay DataMigrator,iWay Service Manager和iWay Universal Adapter Framework。

  ·Microsoft SQL Server整合服務

  Microsoft SQL Server Integration Services(SSIS)是構建高效能資料整合解決方案的平臺,包括用於資料倉儲的ETL包。

  ·OpenText

  OpenText Integration Center是一個整合平臺,使企業能夠從一個或多個儲存庫中提取,增強,轉換,整合並遷移資料和內容到任何新平臺。

  ·Oracle GoldenGate

  Oracle GoldenGate是一個全面的軟體包,用於在異構IT環境中進行實時資料整合和複製。

  ·Pervasive Software

  Pervasive的Data Integrator平臺是一種企業資料整合軟體解決方案,使公司能夠在任何型別的資料來源和應用程式之間建立連線,Data Integrator支援實時整合方案。

  ·Pitney Bowes Software

  Pitney Bowes提供大量工具和解決方案,Sagent Data Flow是一款靈活的整合引擎,可整合來自不同來源的資料並提供全面的資料轉換工具以提高業務價值。

現代ETL工具與傳統解決方案清單附對比

  ·SAP BusinessObjects Data Services

  SAP Business Objects Data Services(BODS)的前身是Business Objects Data Integrator,它是一種用於資料整合、資料分析和資料處理的ETL工具,允許企業將可信資料整合並轉入資料倉儲系統以進行分析。

  ·SAS Data Management

  SAS Data Management建立在SAS平臺之上,是SAS進入ETL工具市場的平臺,由20多種SAS工具和服務組成。

  ·SYBASE

  Sybase ETL包括Sybase ETL Development和Sybase ETL Server。

  Sybase ETL Development是一款用於建立和除錯環境的GUI工具,旨在加速ETL轉換流程開發。Sybase ETL Development包含ETL Development Server,可以控制實際的處理,如連線資料庫和執行程式。

  Sybase ETL Server是一種可伸縮和分散式的網格引擎,使用轉換流連線到資料來源並將資料提取載入到目標系統。

  ·Syncsort

  SyncSort雲解決方案可訪問整合各種來源的資料,並有助於將資料移至雲端儲存庫。

  總結

  傳統工具最大的限制是被設計成批處理模式:收集資料,上傳資料,收集更多資料,上傳更多資料等。批次載入資料在某些情況下有效,但是,僅有批處理模式就存在問題。

  批處理ETL工具很難整合跨平臺資料來源,尤其是涉及變更資料捕獲(CDC)的情況。當批次資料上傳出現問題,研發人員需要跟蹤問題、排除故障並快速重新提交作業。

  隨著越來越多的資料流和其他型別的資料來源出現,需要現代化的資料整合方法。無論希望整合來自資料庫,流媒體服務,檔案還是其他來源資料,選擇正確的工具都至關重要。雲,可以為企業提供所需優勢。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154948/,如需轉載,請註明出處,否則將追究法律責任。

相關文章