大資料時代,ETL工具的新標準正在削弱供應商價值!

趙鈺瑩發表於2018-07-06

如果你問企業“ETL工具重要嗎?”我想答案一定是肯定的;如果你問企業“一定要選用商用ETL工具嗎?”,這個結果就不見得那麼統一了。ETL供應商足以應對不斷變化的資料環境而更好得生存嗎?ETL起源於資料倉儲,雖然開發人員的學習曲線很高,但它提供了許多好處,比如分散式處理、可維護性、基於UI而不是指令碼等。

耦合對程式設計而言是一箇舊概念,但在涉及資料處理方式時仍然是一個相對較新的概念。眾所周知,ETL流緊密耦合,但現在的資料流管道是鬆散耦合的,這種方法也有缺點,例如用暗資料建立資料沼澤。

標準化轉換仍然可以遵循ETL過程,但對於像資料自助服務這樣的全新概念,不能使用舊的流程和實踐。資料質量、資料安全性、後設資料管理和資料治理等標準ETL流程仍然與資料驅動相關。

資料湖的影響

大資料的到來對ETL的整體流程造成了影響,ETL必須轉型並開始支援大資料生態系統技術,以下是ETL受到大資料影響的具體方式:

1、ETL仍然與使用的DW環境相關。目前,DW和資料湖通過擴充套件和改進架構相互補充,可能未來也是如此,因為所有新的用例都是使用資料湖構建的。

2、與使用ETL工具/引擎進行處理並將RDBMS作為儲存來實現標準轉換相比,使用資料湖處理和儲存資料提供了單一平臺,易於使用且更便宜。

3、資料湖擴充套件了僅來自標準化ETL的分析,因為資料湖可以實現首次獲取,然後是資料準備,這是面向自助服務和ad-hoc的,這在ETL中是不可用的。

4、資料湖被用作資料登陸/歸檔,甚至RDBMS也無法作為儲存解決方案處理。因此,需要重新思考如何實施ETL工具。

5、ETL並不適合在非結構化環境中使用,但是大資料流程可以儲存半結構化和非結構化資料,這使得ETL必須向這些方向轉換。

隨著大資料而出現的新的體系結構和技術都在逐漸削弱傳統ETL的作用,ETL工具需要支援新的技術才會有價值,需要向Hadoop和其他開放式架構轉變,這也意味著傳統ETL供應商的作用在減少。

重塑ETL,需要注意哪些事情:

1、與開源工具的結合程度

用於資料處理和儲存的專有技術正在失去與ETL工具的相關性,ETL供應商應該能夠支援所有開源專案,比如Spark、MR以及HDFS等。

2.以云為中心

ETL工具應該支援具有內部部署版本的雲原生架構,有一些新的雲原生ETL工具,如Snaplogic,Informatica Cloud和Talend Integration Cloud,它們提供了一個整合平臺即服務(iPaaS),可以解決基礎架構方面的許多挑戰,但仍有一些ETL功能方面的限制。與新興工具相比,這些ETL工具並非自助服務,未來應該更多地關注自助服務和機器學習,可以儘量讓這些工具實現 ad-hoc和自我訓練。

3.為融合資料做準備

ETL是一個以開發人員為中心的資料轉換工具,而融合資料準備則是以自助服務為重點的資料轉換工具。隨著越來越多得開發人員使用資料湖進行分析,無論是臨時流程還是標準流程,ETL都開始變得無關緊要,因為自助服務將變得更加普遍,兩者合併為建立單一資料轉換類別工具,這樣的工具可用於任何標準和臨時轉換。

4. AI / ML

AI / ML是一個推動者,它通過自動化流程幫助資料工程師和開發人員輕鬆快速完成工作。在AI演算法和資料工作者之間建立一個溝通橋樑, 一旦建議被開發者接受,AI就會開始學習,並根據建議調整分類和轉換。

因此,AI將繼續影響資料架構的許多部分,包括資料分類、資料建模、資料儲存等自學習演算法,ETL工具需要支援AI解決方案——部分供應商已經開始提供AI功能但離被用作標準解決方案還差得遠。

5.自助設計能力

ETL工具應該通過增強現有工具併為此類設計提供新工具,支援建立新的基於自助服務的設計/流程,這將有助於為企業建立新的基於自助服務的用例。

6.實時支援

通過開源技術提供實時支援,並對現有工具的體系結構或為此目的建立新工具,實時讓該工具為大資料的所有用例提供支援。

7.大資料質量

仍然沒有可以提高大資料質量的ETL工具。很少有人能夠描述清楚大資料流程,也沒有基於規則的引擎來支援這種執行。 ETL供應商應該專注於這個關鍵領域,以便能夠與Hadoop上基於平臺的新工具競爭。

8.匹配和合並大資料支援

在MDM和ETL的灰色區域中 - 需要提供對資料湖中獲取資料的支援。這也是一個關鍵領域,通過使用ML技術,這可以由供應商輕鬆提供。

9.統一後設資料目錄支援

大資料時代,企業需要訪問其所有資料目錄。由於ETL工具已經是後設資料的儲存庫,因此它們能夠支援這樣的要求,該功能需要自動填充目錄,自動對資料進行分類/標記,並啟用搜尋功能和群組/專家評級。

10.以可重用性為中心的資料湖設計

ETL工具應該通過設計為可重用元件提供支援,這個需求已經出現很久了,是時候重視起來了。

結論
由於大資料時代的到來,企業對資料的掌握更加重視,都希望以更低的成本獲得更好的見解,ETL工具需要根據新的需求進行改造,供應商可能會逐漸淡出ETL世界,但還是可以將ETL作為資料轉換活動的基礎工具提供。 在國外,類似於Talend、Informatica等ETL供應商已經認識到了這些挑戰,並建立了專門針對大資料和雲端計算的新產品。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2157464/,如需轉載,請註明出處,否則將追究法律責任。

相關文章