主流的開源ETL工具清單及優劣說明!
前不久,筆者整理了《現代ETL工具與傳統解決方案清單附對比》,本期我們將為企業推出主流的開源ETL方案清單!
開源ETL工具儼然成為商用解決方案的低成本替代品。就像商業解決方案一樣,它們也有其優點和缺點。如果沒有時間或資源自定義ETL解決方案或者不能接受商用方案的購買成本,開源解決方案將是一個實用選擇。
此外,開源ETL解決方案非常適合小型專案或非關鍵型資料分析任務。請記住,大多數開源ETL解決方案仍需要一些配置工作。因此,即使用了開源解決方案,也需要具備一些系統或程式設計專業知識。
開源ETL工具概述
開源ETL社群包括大量研發和測試人員,他們可以幫助改進和加速工具開發週期。有些人更喜歡只使用開源解決方案。當然,開源ETL產品最顯著的特點就是通常比商用解決方案便宜得多。
採用開源ETL工具的四大基本人群:
1、尋求可嵌入資料整合工具的獨立軟體供應商(ISV)——降低成本並節省客戶時間,ISV會將資料整合、遷移和轉換能力作為一個嵌入式元件包裝到產品中,與大型商業產品相比,終端產品的記憶體佔用量減少;
2、尋求廉價整合工具的系統整合商(SI)——開源ETL軟體使系統整合商能夠以比定製構建功能更快,質量更高的水平交付整合能力;
3、尋求本地解決方案的企業部門開發人員——使用大型企業的免費ETL工具技術來支援較小的任務;
4、預算較小且需求複雜程度較低的中小型公司——小型公司更可能支援開源ETL提供商,因為它們對資料整合軟體的需求不高。
儘管一些開源專案專注於單個ETL或資料整合功能(某些工具可能僅支援提取資料,其他工具可能僅用於移動資料),但許多開源專案都能夠執行更多功能。
流行的開源ETL工具清單
這不是一份詳盡的清單,但它確實涵蓋了目前比較流行的主流產品。
Apache Airflow
Apache Airflow是一個自動編寫、排程和提供工作流監控平臺的專案。工作流被編寫為任務的有向無環圖(DAG),排程程式在工作陣列上執行任務,並遵循指定的依賴關係。命令列實用程式允許使用者在DAG上執行操作,並且使用者介面允許視覺化生產管道,監視進度並排除故障。
·開源版本功能沒有限制
·開源地址:https://airflow.apache.org/
Apache Kafka
Apache Kafka是一個分散式流式傳輸平臺,提供釋出和訂閱記錄流(類似於訊息佇列),支援容錯儲存記錄流,並允許在發生記錄時處理記錄流。
Kafka通常用於構建實時流式資料,可以在系統或應用程式之間移動資料,也可以轉換或響應資料流。該專案的核心概念包括作為一個或多個伺服器上的叢集執行,擁有強大的記錄流以及處理能力,其中每個記錄包含鍵、值和時間戳。Kafka有四個核心API:生產者API,消費者API,流API和聯結器API。
·開源版本功能沒有限制
·開源地址:https://kafka.apache.org/
Apache NiFi
Apache NiFi專案用於自動化和管理系統之間的資訊流,其設計模型讓NiFi成為構建強大且可擴充套件資料流的有效平臺。NiFi的基本設計概念與基於流程程式設計的核心思想相關,該專案的主要功能包括高度可配置的基於Web的使用者介面(例如,動態優先順序),多樣資料來源,可擴充套件性和安全性(SSL,SSH,HTTPS等選項)。
·開源版本功能沒有限制
·開源地址:https://nifi.apache.org/
CloverETL
CloverETL提供其引擎的開源社群版本。該引擎是一個Java庫,不包含任何視覺化或UI元件。但是,它確實包含對商業版本中使用的ETL /資料轉換功能的訪問。
CloverETL社群版為廣大社群免費提供了基本資料轉換功能的視覺化工具,允許全速執行資料轉換,但它包含相當有限的一組轉換元件。
·開源版本功能有限
·開源地址:https://www.cloveretl.com/products/open-source
JasperSoft
Jaspersoft資料整合軟體可提取、轉換和載入來自不同資料來源的資料到資料倉儲或資料商店以進行報告和分析,社群版本以開源形式提供。
·開源版本功能有限制
·開源地址:https://www.jaspersoft.com/data-integration
KETL
根據其sourceforge網頁介紹,KETL(tm)是一個生產就緒的ETL平臺,其引擎基於開放的,多執行緒的XML體系結構。該產品旨在幫助開發和部署需要ETL和排程的資料整合工作,似乎是在2015年後開始更新。
·開源版本功能沒有限制
·開源地址:https://sourceforge.net/projects/ketl/
Pentaho Kettle
Pentaho Kettle是Pentaho負責ETL操作的元件,它使使用者能夠從任何來源獲取、混合、清理和準備資料。Pentaho還包含線上分析和視覺化工具,社群版本是免費的,但提供的功能比付費版本少。
·開源版本功能有限制
·開源地址:https://community.hds.com/docs/DOC-1009855
Talend Open Studio
Talend提供Open Studio for Data Integration作為其資料管理平臺有限開放(Apache許可證)版本。它為各種RDBMS,SaaS,打包應用程式和技術提供聯結器。
·開源版本功能有限制
·開源地址:https://www.talend.com/products/data-integration/data-integration-open-studio/
開源ETL工具的侷限性
如果使用得當並可接受開源ETL工具的侷限性,免費ETL工具可以成為ETL管道中的固定元件。正如商用方案一樣,這些產品也在不斷改進和迭代。開源ETL工具的當前缺陷包括以下方面的有限支援能力:
·企業應用程式連線
·全面管理和錯誤處理功能
·非RDBMS連線
·變更資料捕獲(CDC)
·整合資料質量管理和分析
·大資料量和小批量視窗
·複雜的轉換要求
即便如此,許多企業仍然不願意選擇大型昂貴的資料整合套件而考慮開源ETL工具,它們可以替代耗時且容易出錯的自定義資料整合工具。但是,最受歡迎的開源ETL工具的供應商仍然不是真正的社群驅動專案,不少專案不過是商用解決方案的功能限制版本。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2156177/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Java開源工具 網站開發工具清單Java開源工具網站
- 2018.7月Vue優質開源專案清單Vue
- 一文了解主流大資料ETL工具大資料
- 現代ETL工具與傳統解決方案清單附對比
- 我的願望清單上的 4 種開源生產力工具
- 主流程式語言的優勢與劣勢對比
- [Android開源框架]RxHttp使用說明Android框架HTTP
- 第四課 以太坊術語說明及開發者資源列表
- Flowable - 6.6.0 更新說明 (主流工作流引擎)
- 【開源專案】智慧電視及電視盒子的控制應用TVRemoteIME的介面說明VRREM
- ES API,使用Kibana的開發工具用例說明API
- eachdemo/rbac 的簡單說明
- 細說 Java 主流日誌工具庫Java
- ETL工具 etl-engine 能嵌入go語言進行開發的ETL產品Go
- ETL 是什麼 ETL 工具有哪些 ETL 工具對比 engine
- QT - QOverload說明及示例QT
- jarsigner 簡單使用說明JAR
- OpenGrok簡單使用說明
- 《開源網店系統iWebShop2.0模板開發教程》的說明Web
- epic和steam的區別介紹及優劣對比
- 國產ETL工具 etl-engine
- 建立索引的優劣勢索引
- 抓包工具tcpdump用法說明TCP
- 主流好用的15個開源資料視覺化工具軟體視覺化
- Kibana安裝及使用說明
- JavaScript介紹及說明(01)JavaScript
- OPC客戶端開發工具WTopcclient補充說明客戶端client
- 聖誕禮物清單:機器學習開源專案及框架已打包好!機器學習框架
- jquery datatables各引數詳細說明及簡單應用jQuery
- 清華社互動英語視聽說答題指令碼的使用說明指令碼
- ETL介紹與ETL工具比較
- 【譯】前端效能優化清單前端優化
- 開始使用開源待辦事項清單管理器
- Flutter開發第一個專案android studio 開發工具的使用說明FlutterAndroid
- 掘金開源庫產品近期更新說明(11-15)
- 合約跟單開發說明丨合約跟單系統開發(方案及策略)丨合約跟單原始碼版原始碼
- 推薦一個清單工具
- 網站外鏈優勢劣勢及如何判斷?網站