資料湖會取代資料倉儲嗎?

danny_2018發表於2022-11-09

先說結論:不會取代!

01 什麼是資料湖?

資料湖是一個儲存企業的各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸。

相關概念:資料中臺:淺析資料湖和資料中臺的關係

資料湖從企業的多個資料來源獲取原始資料,並且針對不同的目的,同一份原始資料還可能有多種滿足特定內部模型格式的資料副本。因此,資料湖中被處理的資料可能是任意型別的資訊,從結構化資料到完全非結構化資料。

企業對資料湖寄予厚望,希望它能幫助使用者快速獲取有用資訊,並能將這些資訊用於資料分析和機器學習演算法,以獲得與企業執行相關的洞察力。

資料湖能給企業帶來多種能力,例如,能實現資料的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。

另外,資料湖結合先進的資料科學與機器學習技術,能幫助企業構建更多最佳化後的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的後續增長。

企業資料中隱藏著多種能力,然而,在重要資料能夠被具備商業資料洞察力的人使用之前,人們無法利用它們來改善企業的商業表現。

再來說下資料倉儲。資料倉儲為企業瞭解其歷史業務表現和推動持續運營提供了一個接入視窗,為資料分析師和業務使用者提供了諸如客戶行為、業務趨勢、運營效率和銷售等方面的資訊。

但作為資料管理體系結構的一部分,在對資料倉儲平臺進行投資之前,首先還是要檢查企業是否真的需要一個資料倉儲平臺,以及透過實施部署,企業可以藉此獲取哪些業務收益。相關的,必須考慮不同的資料倉儲部署情況——在企業範圍內還是部門範圍內,在本地還是在雲中。

還需要確定,通常儲存在大資料系統中的非結構化和半結構化資料,是否會成為資料倉儲環境的組成部分,並確定是否將用於BI、企業報告和線上分析處理(OLAP)等應用的傳統資料倉儲,與資料處理和大資料分析管理整合在一起。最後,必須將企業的資料倉儲用例與最合適型別的資料倉儲平臺相匹配。

02 為什麼需要資料倉儲?

資料倉儲的一般概念非常簡單:從支援業務流程的作業系統中定期提取資料副本,並將其載入到單獨的儲存庫中,在該儲存庫中,資料將被合併,然後可用於分析和報告。之後,業務使用者和分析師可以透過BI和分析工具、儀表板、入口和準備好的報告來訪問資料。

在下面這些情況下,資料倉儲可能更容易發揮其價值:

公司在做出有效的商業活動報告方面遇到了難題,因為所需要的資料不容易獲得。

不同部門和使用者組會將業務資料複製到電子表格中以進行分析,而這些電子表格並非總是相互一致的。

資料質量和準確性的不確定性,導致企業高管和業務經理會質疑報告的準確性。

針對生產資料庫的BI報告會每晚延遲,或在月底進行的交易資料處理,需要擴充套件處理視窗。

在工作日對資料庫執行臨時查詢會降低作業系統的速度,從而影響內部使用者和客戶、供應商以及其他外部使用者。

一個正確資料倉儲實施策略可以幫助企業準確地回答有關業務運營的問題,如發生了什麼、為什麼。資料倉儲可將來自不同位置和來源的資料組合到中央儲存庫中,從而提高資料的可訪問性。當資料移至資料倉儲時,通常還會對其進行清理和轉換,以使其與分析一致,這將有助於提高查詢結果和報告中資訊的質量。

此外,一旦資料倉儲部署完成並得到積極使用,由於BI、報告和分析活動已從生產資料庫中移出,運營工作流程可能會變得更有效率。

03 資料倉儲的部署

各個企業之間的資料倉儲環境可能會有很大差異。從體系結構的角度來看,部署可以遵循多個路徑——如一個企業資料倉儲(EDW),一組較小的資料集市,或這兩種方法的組合。

EDW包含來自企業作業系統的所有相關資料,並且可能包含一些從外部資料來源收集的資料。它是用於BI和分析資料的單個統一儲存庫,可以在所有部門和業務部門中使用。因此,建立EDW通常是一項艱鉅的任務,尤其是在大型企業中。

在EDW架構中,企業還可以在其作業系統和企業資料倉儲之間實施運營資料儲存(ODS)作為過渡步驟。將運營資料複製到ODS,然後提取並載入到資料倉儲中。ODS可以用作尚未經過轉換的、無法用於分析的資料的暫存區,同時可以用於執行近實時的查詢,這些查詢需要最新的業務運營的詳細相關資料,而不是資料倉儲中可用的資料。

資料集市是小型化的資料倉儲,專注於各個業務部門和職能領域。當需要滿足部門對BI的特定需求時,企業通常會選擇建立資料集市,並且優先考慮報告功能。資料集市不需要涵蓋整個企業的龐大專案,而是更加集中,並且可以更快地提供業務收益。

因此,資料集市的方法使企業可以透過一次處理一個業務的各個部分——而不是構建整體的EDW——以迭代方式開發資料倉儲體系架構。企業可以選擇部署一個或多個資料集市,具體取決於企業的規模和結構。

然後,決定組合採用這兩種方法的企業,可以將不同的資料集市彼此整合以建立虛擬EDW,或以物理方式填充一個EDW。另一種方式是,以EDW開始的企業可以將倉庫資料的子集提供給後來建立的資料集市,以此分離業務運營。

04 本地與雲資料倉儲

每種可用的資料倉儲平臺型別都有不同的部署選項:資料庫管理系統(DBMS)軟體,通常基於關聯式資料庫技術;專門的分析型DBMS;資料倉儲裝置將必要的硬體和DBMS軟體捆綁在一個包裝中;雲資料倉儲。

將雲用於資料倉儲已成為更可行的選擇。有些供應商已經推出了特定於雲的資料倉儲平臺,而且有些最初設定為本地安裝的資料倉儲資料庫,其供應商現在也提供了基於雲的版本。此類產品包括企業自己在雲中執行的常規資料倉儲系統,以及供應商為使用者部署和管理的資料倉儲即服務(DWaaS)技術。

與其他型別的雲系統一樣,與本地環境相比,雲資料倉儲可以減少部署時間,並提供更輕鬆的可伸縮性和更大的靈活性。還可以節省一定的成本——但這並不能保證,IT經理需要密切關注雲中資料倉儲的使用,以確保成本最終不會高於預期。同樣,資料安全和隱私問題可能是決定是否在本地部署資料倉儲的考慮因素。

05 資料湖與資料倉儲

在Hadoop和其他大資料技術首次出現之後,關於它們是否會替代資料倉儲,市場上充滿了各種聲音。但是在大多數企業中,資料倉儲並沒有消失。相反,它們和大資料系統通常並存,每種系統都支援不同型別的分析用例。

縱觀資料湖與資料倉儲的技術發展,不難發現兩者有著各自的優劣,具體表現如下:

而今企業在進行系統架構設計選型時,需要從具體的分析場景出發,單一的模式已經無法滿足企業發展的業務訴求,集中表現在以下兩個痛點:

1)資料湖主要以離線批次計算為主,因為不支援資料倉儲的資料管理能力,難以提高資料質量;資料入湖時效差不支援實時更新,資料無法強一致性;主題建模不友好,無法直接歷史拉鍊建模;同時互動分析通常將資料搬遷到資料倉儲平臺,造成分析鏈路長,資料冗餘儲存;批流等場景融合不夠,無法滿足企業的海量資料處理訴求。

2)資料倉儲滿足不了非結構化資料的分析需求,價效比不高;同時倉湖間難以互聯互通,資料協同效率較低,無法支援跨平臺透明訪問,形成了事實上的資料孤島,找數困難;缺乏全域性資料檢視,不同平臺介面差異和不同開發管理工具,造成使用者開發使用複雜,資料分別管理維護代價高體驗差。

資料倉儲平臺通常基於關係DBMS,幷包含源自企業的運營和交易處理系統的結構化資料。資料倉儲主要由希望執行基於SQL的、基本BI查詢的業務分析人員和執行人員,以及希望建立儀表板和報告以向業務使用者提供分析資訊的BI開發人員訪問。

另一方面,大資料系統通常基於非關係技術,例如Hadoop、Spark和NoSQL資料庫。它們包含的資料可以是結構化、非結構化或半結構化的,並且可以源自所有型別的內部系統,以及社交網路和其他外部資料來源。

大資料分析旨在發現模式、關聯和類似的見解——例如,根據過去的活動預測未來趨勢和客戶行為。通常是由資料科學家和統計人員使用Python、R和Scala等語言開發的複雜分析模型完成的。

大資料技術還支援資料湖的概念,資料湖是來自各種來源的原始資料的儲存庫,可以按原樣儲存這些資料,然後根據需要對其進行過濾和分析準備。

最後,大資料系統並不能直接替代資料倉儲和資料集市。實際上,資料倉儲和資料湖之間存在協同作用。例如,可以將在資料湖中收集的結構化資料集移動到資料倉儲中,以進行常規的OLAP儲存和分析。供應商也已開始將大資料訪問整合到資料倉儲平臺中,從而可以從一個位置訪問儲存在不同系統中的,不同格式的資料。

06 資料倉儲用例和場景

下面介紹一些用例和方案,這可能會影響企業的資料倉儲策略,以及決定為資料倉儲專案部署哪種型別的平臺。

初次VS長期資料倉儲使用者。希望擴充套件現有資料倉儲的公司通常會很好地繼續使用他們已經建立的資料倉儲平臺。對於第一次實施資料倉儲的企業而言,資料倉儲裝置可能是一個不錯的選擇。供應商可能會與企業一起確定適合的裝置規格和配置,而且這些裝置的交付是非常簡易的。但是,所有資料倉儲平臺對於首次使用的使用者都是可行的選擇,企業應該審查本部門中的其他用例,以開發企業特定要求和部署計劃。

公司規模。大型公司可能會選擇主流的關係DBMS、分析資料庫或混合事務/分析處理(HTAP)系統。這些企業擁有成功使用此類技術的基礎架構和人員。在HTAP方法中,相同的DBMS既可以用於處理業務交易,也可以用於BI和分析建模。為了支援HTAP,關聯式資料庫引擎可以提供內建的列式訪問或用於分析處理的附加裝置。

另一方面,較小規模的企業應考慮使用資料倉儲裝置或雲資料倉儲服務。這兩種選擇都可以最大程度地減少管理需求:裝置已預先配置,並且DWaaS環境提供的雲中的資料倉儲一般由雲服務提供商進行設定和管理。

IT部門的規模。IT部門相對較小的大型企業往往擁有較少的資料庫管理員和其他可以建設、調整和管理資料倉儲系統的IT專業人員。對於他們來說,考慮使用資料倉儲裝置或DWaaS產品也很有意義。

雲用例。如果企業在雲中執行大量應用程式,則DWaaS部署或自我管理的雲資料倉儲平臺可能是企業的首要選擇。將生成和儲存在雲中的業務資料儲存在雲中以進行資料倉儲和分析是一種符合邏輯的方法。

資料延遲要求。對於在分析應用程式中需要最小資料延遲的企業而言,最佳化的資料倉儲裝置可能最有價值。使用其他方法也不是說無法實現近實時的延遲,但是企業可能需要使用其他高速硬體和軟體來擴充套件資料倉儲環境,以滿足效能目標。

一旦企業決定需要建設一個資料倉儲,並確定了最合理的部署方案,下一步就是研究購買資料倉儲平臺的可用技術選項。整個過程,往往需要經過萬全的考慮。

來自 “ 談資料 ”, 原文作者:談資料;原文連結:https://mp.weixin.qq.com/s/5oX_hY865X3Fn1zwI5Irbw,如有侵權,請聯絡管理員刪除。

相關文章