部署ETL工具的三種方式,企業應該怎麼選?

趙鈺瑩發表於2018-06-14

  數十年來,由於可從資料庫提取資訊、重新格式化轉換資料,並將資料載入到資料倉儲,ETL一直是企業基礎架構的關鍵元件。隨著雲、SaaS和大資料的出現,新資料來源和資料流的急劇增加,迫切需要更強大和更復雜的資料整合工具出現。新一代ETL工具可以實時獲取資料,處理數十億交易以及支援任何來源的結構化或非結構化資料(無論是內部部署還是雲中);同時,這些工具還具備可擴充套件性、靈活性、容錯性和安全性,具備傳統內部部署解決方案無法實現的所有功能。

企業部署ETL工具的三種方式,應該怎麼選?

  ETL簡史

  ETL出現於20世紀70年代,當時大型企業開始聚合和儲存來自多個資料來源的資訊,這些資料來源包括內部工資系統、銷售系統、庫存系統等。自然需要整合這些資料,為開發ETL工具鋪平道路。

  資料倉儲在20世紀80年代流行起來,這種型別的資料庫可以整合來自多個來源的資料。 問題在於許多資料倉儲只匹配特定供應商的ETL工具。因此,很多企業經歷了多ETL工具的很長一段過渡期。

  隨著時間的推移,資料來源、資料型別以及ETL供應商的數量均急劇增加,ETL工具的價格開始逐漸降低,這讓很多中端市場也可以使用ETL工具自行解決問題,幫助公司建立現代化的資料授權的企業。

  現代企業部署ETL工具的三種方式

  當ETL工具的成本可以被更多企業接受之後,開源ETL工具的發展也開始加速。現代企業部署ETL工具的方式無非有三種:

  1、根據自身情況選擇合適的開源ETL工具,整個過程需要更多的功能、靈活性與技術支援。(感興趣的可以檢視開源解決方案清單《主流開源ETL工具清單及優劣說明!》

  2、與現有供應商合作,選擇一種能夠很好處理當前多樣資料流和資料來源問題的方案,當然,這些供應商一般就是大品牌的廠商,比如IBM、微軟等,成本較高;

  3、選擇一些現代的ETL商用工具,這些工具往往是一些新興企業支援的,可能也會有不錯的開源版本。重要的是,這些工具往往是更切合企業在雲端計算、大資料環境下的需求,這些方案通常是基於雲端的,並且可以提供端到端的ETL支援。(感興趣的可以閱讀上一篇文章現代ETL工具與傳統解決方案清單附對比,瞭解可用的工具清單。

  開源ETL解決方案的優缺點!

  ETL需要從不同的系統中提取資料並將其轉換為符合資料倉儲格式要求的結果,再將其載入到資料倉儲中。

  1、提取—提取是從一個或多個來源(線上,實體,傳統資料庫,Salesforce或其他許多來源)檢索資料的過程。檢索資料後,ETL將其載入到一個臨時區域併為下一階段做好準備。

  2、轉換—轉換是一個關鍵功能,因為它為資料整合鋪平了道路,就像之前有不同渠道的零售商一樣,轉換可能涉及重新格式化,但有時這一步驟還有其他型別的操作,比如貨幣金額從美元到歐元的轉換計算。

  3、載入—成功將傳入資料插入到目標資料庫、資料儲存或資料倉儲中。

企業部署ETL工具的三種方式,應該怎麼選?

  開源解決方案可能僅足以解決上述三個功能其中之一,但是大部分開源解決方案提供了全部功能。如果企業對自己的技術能力足夠自信,可以考慮開源ETL解決方案,因為現在不少開源解決方案不過是商用方案的功能限制版本,並不是真正社群驅動的專案,即便出現問題也可以聯絡到專業的廠商團隊幫忙解決。

  對於非關鍵型或小型專案,開源ETL工具是很合適的選擇,成本低且企業可接受非關鍵型任務上的較低出錯率。但是,開源解決方案最大的問題是可能無法解決當今依賴資料決策的企業的複雜動態問題,真正的解決方案不僅需要處理當前存在的大量資料來源和資料型別,還需要處理每天都在新增的資料來源和資料型別。開源ETL解決方案因為更新不及時很可能讓資料海嘯瞬時壓倒,這一點倒是和不少傳統方案不謀而合。但是,成本和效能從來都是等價的,低成本的選擇需要企業有較大的包容量,並且不少開源方案其實已經有了很多成功案例可參考。

  現代ETL工具:更快,上雲,易擴充套件!

  傳統的內部部署ETL捆綁了一系列令人頭痛的問題。例如,它們通常是內部構建的,很快就會變得過時或缺乏重要功能;維護費用昂貴且耗時;只支援批處理(而不是實時處理),並且不能很好擴充套件。

  相比之下,現代ETL(如Alooma)工具可以在各種資料來源和資料流中捕捉、轉換和儲存數百萬(或數十億)事務的資料。這可以讓資料真正為企業帶來價值,比如分析歷史記錄以最佳化銷售流程,實時調整價格和庫存,利用ML / AI建立預測模型,開發新的收入流,轉向雲端等。

  現代ETL工具的主要優點是:

  ·不拘泥於格式且靈活,足以快速輕鬆地整合新的資料來源。

  ·能夠實時處理海量資料,實現閃電般的速度分析。

  ·易於擴充套件,因為它利用了彈性雲。

  ·全託管

  ·安全

  現代ETL工具和開源方案的邊界正在逐漸模糊,成本大多介於開源和傳統之間,但是,這類方案一開始就是奔著日益增長的、基於網路的大資料流量所建立的,因此對企業在雲端計算和大資料時代出現的新需求具備極佳的適應能力,但這類解決方案的能力到底如何,我們會在後續的文章中繼續跟進。

  結語

  傳統商用解決方案:適用關鍵型任務、成本高、服務好、擴充套件性差,不適合海量複雜資料來源的環境。傳統工具最大的限制是被設計成批處理模式,甚至僅有批處理模式,很難整合跨平臺資料來源。查詢和解決問題過程十分耗時,需要研發人員逐個排查。

  開源ETL工具:適用非關鍵型和小型專案,成本低,服務分情況,社群驅動的解決方案服務一般,只能依靠社群力量;企業驅動的解決方案可尋求廠商幫助。對海量資料的應變能力一般,需要企業內部具備一定研發實力。

  現代ETL工具:成本介於上述兩者之間,其中含有個別開源方案,適用於海量複雜的資料來源環境,擴充套件性良好。部分方案內建錯誤問題響應、監控及報告流程,部分需要透過簡單編碼實現,後續服務要根據廠商而定,定製化強。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2156191/,如需轉載,請註明出處,否則將追究法律責任。

相關文章