主流的開源ETL工具清單及優劣說明!

趙鈺瑩發表於2018-06-14

  前不久,筆者整理了現代ETL工具與傳統解決方案清單附對比,本期我們將為企業推出主流的開源ETL方案清單!

  開源ETL工具儼然成為商用解決方案的低成本替代品。就像商業解決方案一樣,它們也有其優點和缺點。如果沒有時間或資源自定義ETL解決方案或者不能接受商用方案的購買成本,開源解決方案將是一個實用選擇。

主流可選的開源ETL工具清單及優劣說明!

  此外,開源ETL解決方案非常適合小型專案或非關鍵型資料分析任務。請記住,大多數開源ETL解決方案仍需要一些配置工作。因此,即使用了開源解決方案,也需要具備一些系統或程式設計專業知識。

  開源ETL工具概述

  開源ETL社群包括大量研發和測試人員,他們可以幫助改進和加速工具開發週期。有些人更喜歡只使用開源解決方案。當然,開源ETL產品最顯著的特點就是通常比商用解決方案便宜得多。

  採用開源ETL工具的四大基本人群:

  1、尋求可嵌入資料整合工具的獨立軟體供應商(ISV)——降低成本並節省客戶時間,ISV會將資料整合、遷移和轉換能力作為一個嵌入式元件包裝到產品中,與大型商業產品相比,終端產品的記憶體佔用量減少;

  2、尋求廉價整合工具的系統整合商(SI)——開源ETL軟體使系統整合商能夠以比定製構建功能更快,質量更高的水平交付整合能力;

  3、尋求本地解決方案的企業部門開發人員——使用大型企業的免費ETL工具技術來支援較小的任務;

  4、預算較小且需求複雜程度較低的中小型公司——小型公司更可能支援開源ETL提供商,因為它們對資料整合軟體的需求不高。

  儘管一些開源專案專注於單個ETL或資料整合功能(某些工具可能僅支援提取資料,其他工具可能僅用於移動資料),但許多開源專案都能夠執行更多功能。

  流行的開源ETL工具清單

  這不是一份詳盡的清單,但它確實涵蓋了目前比較流行的主流產品。

  Apache Airflow

  Apache Airflow是一個自動編寫、排程和提供工作流監控平臺的專案。工作流被編寫為任務的有向無環圖(DAG),排程程式在工作陣列上執行任務,並遵循指定的依賴關係。命令列實用程式允許使用者在DAG上執行操作,並且使用者介面允許視覺化生產管道,監視進度並排除故障。

  ·開源版本功能沒有限制

  ·開源地址:https://airflow.apache.org/

  Apache Kafka

  Apache Kafka是一個分散式流式傳輸平臺,提供釋出和訂閱記錄流(類似於訊息佇列),支援容錯儲存記錄流,並允許在發生記錄時處理記錄流。

  Kafka通常用於構建實時流式資料,可以在系統或應用程式之間移動資料,也可以轉換或響應資料流。該專案的核心概念包括作為一個或多個伺服器上的叢集執行,擁有強大的記錄流以及處理能力,其中每個記錄包含鍵、值和時間戳。Kafka有四個核心API:生產者API,消費者API,流API和聯結器API。

  ·開源版本功能沒有限制

  ·開源地址:https://kafka.apache.org/

  Apache NiFi

  Apache NiFi專案用於自動化和管理系統之間的資訊流,其設計模型讓NiFi成為構建強大且可擴充套件資料流的有效平臺。NiFi的基本設計概念與基於流程程式設計的核心思想相關,該專案的主要功能包括高度可配置的基於Web的使用者介面(例如,動態優先順序),多樣資料來源,可擴充套件性和安全性(SSL,SSH,HTTPS等選項)。

  ·開源版本功能沒有限制

  ·開源地址:https://nifi.apache.org/

  CloverETL

  CloverETL提供其引擎的開源社群版本。該引擎是一個Java庫,不包含任何視覺化或UI元件。但是,它確實包含對商業版本中使用的ETL /資料轉換功能的訪問。

  CloverETL社群版為廣大社群免費提供了基本資料轉換功能的視覺化工具,允許全速執行資料轉換,但它包含相當有限的一組轉換元件。

  ·開源版本功能有限

  ·開源地址:https://www.cloveretl.com/products/open-source

  JasperSoft

  Jaspersoft資料整合軟體可提取、轉換和載入來自不同資料來源的資料到資料倉儲或資料商店以進行報告和分析,社群版本以開源形式提供。

  ·開源版本功能有限制

  ·開源地址:https://www.jaspersoft.com/data-integration

  KETL

  根據其sourceforge網頁介紹,KETL(tm)是一個生產就緒的ETL平臺,其引擎基於開放的,多執行緒的XML體系結構。該產品旨在幫助開發和部署需要ETL和排程的資料整合工作,似乎是在2015年後開始更新。

  ·開源版本功能沒有限制

  ·開源地址:https://sourceforge.net/projects/ketl/

  Pentaho Kettle

  Pentaho Kettle是Pentaho負責ETL操作的元件,它使使用者能夠從任何來源獲取、混合、清理和準備資料。Pentaho還包含線上分析和視覺化工具,社群版本是免費的,但提供的功能比付費版本少。

  ·開源版本功能有限制

  ·開源地址:https://community.hds.com/docs/DOC-1009855

  Talend Open Studio

  Talend提供Open Studio for Data Integration作為其資料管理平臺有限開放(Apache許可證)版本。它為各種RDBMS,SaaS,打包應用程式和技術提供聯結器。

  ·開源版本功能有限制

  ·開源地址:https://www.talend.com/products/data-integration/data-integration-open-studio/

  開源ETL工具的侷限性

  如果使用得當並可接受開源ETL工具的侷限性,免費ETL工具可以成為ETL管道中的固定元件。正如商用方案一樣,這些產品也在不斷改進和迭代。開源ETL工具的當前缺陷包括以下方面的有限支援能力:

  ·企業應用程式連線

  ·全面管理和錯誤處理功能

  ·非RDBMS連線

  ·變更資料捕獲(CDC)

  ·整合資料質量管理和分析

  ·大資料量和小批量視窗

  ·複雜的轉換要求

  即便如此,許多企業仍然不願意選擇大型昂貴的資料整合套件而考慮開源ETL工具,它們可以替代耗時且容易出錯的自定義資料整合工具。但是,最受歡迎的開源ETL工具的供應商仍然不是真正的社群驅動專案,不少專案不過是商用解決方案的功能限制版本。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2156177/,如需轉載,請註明出處,否則將追究法律責任。

相關文章