ETL專業人員應該學習Hadoop的5個理由

banq發表於2022-01-09

作為提取、轉換和載入 (ETL) 處理的臨時平臺,Hadoop 在資料倉儲中的重要性正在迅速發展。提到 ETL,Hadoop 被視為資料準備和轉換的邏輯平臺,因為它允許他們完美地管理大量、多樣性和速度的資料。Hadoop 被廣泛認為是 ETL 的最佳平臺,因為它被認為是企業大資料的通用暫存區和著陸區。要了解大資料和 Hadoop 對 ETL 專業人士的重要性,請閱讀這篇文章,瞭解為什麼現在是所有資料倉儲和 ETL 專業人士從事大資料 Hadoop 職業的最佳時機。

在過去的二十年中,網際網路使用者的激增和所有可以想象的行業對技術的採用開始以指數級增長的數量生成資料。隨著資料的不斷增長,所有者意識到需要對其進行分析,因此開創了一個全新的資料倉儲領域。這為全新的ETL領域(Extract Transform Load 的首字母縮寫詞)奠定了基礎  ——該領域至今仍主導著資料倉儲。

 

用於 ETL 平臺的 Hadoop

提取、轉換和載入過程構成了所有資料倉儲工具的支柱。這一直是在通過大量卷和資料解析和分析做準備的方式。隨著 Hadoop 的興起,這一概念最近受到了挑戰。許多 Hadoop 倡導者認為,未來管理資料的唯一方法是 學習 Hadoop。傳統的 ETL 軟體和伺服器設定受到與可擴充套件性和成本超支相關的問題的困擾,Hadoop 巧妙地解決了這些問題。

我們來看看 ETL 專業人士應該學習 Hadoop 的 5 大理由:

 

原因一:更廣闊的職業道路

ETL 與 Hadoop 的爭論日益激烈,在不久的將來還沒有明確的贏家。它們都有自己的優點和缺點。沒有通用的解決方案,並且選擇其中一種方法通常是一種選擇問題,兩種方法都牢牢地站穩了腳跟。

如果你經常遇到  大資料,傳統的 ETL 工具在儲存、效率和成本方面的侷限性很可能會迫使你學習 Hadoop。因此,為什麼不帶頭並準備好應對未來的任何情況呢?從目前的情況來看,這兩種技術都將在不久的將來保留下來。可能存在特定要求的情況,其中一個優先於另一個,有時兩者都需要同步工作以實現最佳結果。

即使 ETL 逐漸被遺忘,也不會是二元變化。相反,這將是一段旅程,您將需要結合傳統 ETL 和 Hadoop 來完成大部分工作。

LinkedIn 首席工程師 Jay Kreps 說:“Hadoop 是使 LinkedIn 能夠構建許多計算難度最高的功能的關鍵要素,使我們能夠為使用者利用關於職業世界的令人難以置信的資料。”

 

原因二:高效處理大資料

ETL的需求和工具的出現推進了大資料時代。隨著傳統 ETL 系統中資料量的不斷增長,需要相應增加人員、技能、軟體和資源。隨著時間的推移,大量資料開始給資源帶來壓力,效能引數開始下降。傳統上流暢的 ETL 流程中出現了許多瓶頸。由於 ETL 涉及從一個系統讀取資料、通過網路複製和傳輸資料以及寫入另一個系統,因此不斷增長的資料量開始對效能引數產生不利影響。

包含資料的系統通常不是使用資料的系統,而 Hadoop 正在改變這一概念。它是企業架構中的資料中心,提供了一種廉價、高效能的儲存環境來轉換和使用資料,而無需通過網路系統遷移大量資料。

有時,ETL 所做的只是從一個系統中提取資料,執行次要的聚合功能並將其載入到另一個系統中。其中大部分只會導致系統瓶頸,通常不會增加任何價值,對於本質上非增值的活動,所花費的成本和時間變得難以管理。

 

原因三:處理非結構化資料

隨著各行各業的組織繼續以極快的速度增長,它們產生了大量、複雜和非結構化的資料,這些資料暴露了傳統 ETL 系統的侷限性。準確處理大規模資料正日益成為資料管理專業人員的一項艱鉅任務。資料的增長如此突如其來,即使是現有的倉儲平臺也無法在資源限制的情況下對其進行吸收、聚合、轉換和分析。更麻煩的是,傳統 ETL 工具處理非結構化和半結構化資料的能力有限,這對於任何 21 st來說都不是好兆頭。世紀商業。與資料混亂保持同步的一個選擇是學習 Hadoop——越來越多的組織正在走這條路,因為升級傳統的資料倉儲基礎設施並不是一個永久的解決方案,更不用說他們需要數小時的處理時間了。

 

原因四:需要同步傳統ETL和Hadoop

最近的許多討論都被預測為 ETL 與 Hadoop 的對比,這不是一個準確的分析。至少在目前,它們並不是相互排斥的,兩者共存的可能性非常大。話雖如此,資料專業人員不能依賴於他們現有的一種或多種 ETL 工具的專業知識。Hadoop 正在流行,許多分析師強烈建議採用它,特別是對於定期處理大量、半結構化和非結構化資料的專案。這兩種技術各有優缺點,即使採用Hadoop,ETL 工具也不會很快消失  。將轉換處理解除安裝到 Hadoop 等平臺可以釋放資料倉儲中的大量容量 – 從而使其成為昂貴的擴充套件或升級的可行替代方案,從而為資料量的指數級擴充套件騰出空間。

Hadoop 能夠以比傳統資料倉儲解決方案低 50 倍以上的成本實現幾乎無限的可擴充套件性。它還為資料歸檔提供了強有力的案例,因為它可以對歸檔資料進行分析。儘管它不會很快取代傳統的 RDBMS 系統,但其卓越的價效比為組織提供了一個現實的選擇,可以在保持現有效能水平的同時降低成本。

 

理由五:開源,一站式解決方案

傳統的 ETL 系統在過去的二十年如雨後春筍般湧現,產品沒有統一性。有各種各樣的資料倉儲解決方案可供選擇,這些解決方案可能會讓人很困惑。學習 Hadoop 後,您會發現它是針對與非結構化資料、處理時間和可擴充套件性相關的現有解決方案的一站式開源解決方案。所有資料倉儲專業人員都應該具備查詢、故障排除和資料處理的技能,這些技能涵蓋了學習 Hadoop 的所有先決條件。它使您能夠以比傳統 ETL 解決方案更短的時間完美地管理資料的數量、種類和速度。

Gartner商業智慧峰會統計(2013 年)的統計資料揭示了以下統計資料,這些資料進一步加強了學習 Hadoop 的案例:

75% 的當前資料倉儲無法擴充套件以滿足資料需求的新速度和複雜性

86% 的公司無法在正確的時間提供正確的資訊

 

相關文章