資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?
— 資料倉儲(Data Warehouse) —
資料倉儲是企業的統一的資料管理方式,將不同應用中的資料匯聚,然後對這些資料加工和多維度分析,並最終展現給使用者。它幫助企業將紛繁浩雜的資料整合加工,並最終轉換為關鍵流程上的KPI,從而為決策/管理等提供最準確的支援,並幫助預測發展趨勢。因此,資料倉儲是企業IT中非常核心的系統。
-
企業資料倉儲
-
實時資料倉儲
— 資料集市(Data Mart ) —
-
獨立資料集市 : 獨立的資料集市系統,不依賴資料倉儲或資料湖,一般直接從資料來源系統載入必要的資料做加工後按照業務主體提供業務分析結果;
-
關聯資料集市: 是資料倉儲或資料湖的一個部分,一般對應資料倉儲的資料集市層,相關的資料加工處理由資料倉儲的批處理任務完成;
-
混合資料集市: 主題資料的來源包括了資料倉儲、資料湖,也包括了其他的資料庫。這種集市的好處是既能包含企業自頂而下設計的從資料倉儲中加工而來的業務主題資料,又能滿足自下而上的一線分析師的靈活提出的業務需求。
資料集市的底層一般是一個獨立的資料庫,並且一般提供高併發的統計分析和檢索服務,因此對資料庫的併發計算效能要求比較高。為了保證資料集市的併發效能,關鍵技術包括這兩種:一是資料庫層採用支援高併發訪問的分散式資料庫來支撐,二是採用OLAP Cube技術。
分散式資料庫由於其可擴充套件效能的優勢,能夠支撐更高併發的連線訪問,並且分散式計算引擎的統計分析SQL的效能更強,還可以透過增加硬體資源來擴充套件效能,因此針對一些使用者規模較大、或者BI報表涉及的報表計算非常複雜的部門或業務線,可以採用分散式資料庫。
— 資料湖(Data Lake) —
最初建立資料湖的目的是 應對資料倉儲無法處理數量、速度和種類不斷增加的大資料的情況。雖然資料湖比資料倉儲慢,但它們的價格也更低廉,因為在採集之前幾乎不需要資料準備。 與資料倉儲或資料集市不同的是, 資料湖上儲存原始資料,通常為PB級別,一般沒有複雜的業務建模,主要做一些基礎的資料治理或者基礎性的模型建設工作, 更多的為企業內部提供一個公共的資料儲存和探索能力,併為下游的集市、倉庫或者中臺提供資料與計算能力。很多企業會同時建設資料湖和資料倉儲,從而保證更好的資料架構與使用者體驗。
資料湖支援廣泛的用例,因為在收集資料時不需要定義資料的業務目標。 資料湖可以儲存結構化和非結構化資料,這種靈活的儲存需求對於資料科學家、資料工程師和開發人員尤其有用,讓他們能夠訪問資料 進行資料發現練習和機器學習專案。資料科學家可以使用資料湖進行概念驗證。機器學習應用程式可以從能夠在 同一個地方儲存結構化和非結構化資料中受益,這是使用關聯式資料庫系統無法實現的。資料湖也可以 用於測試和開發大資料分析專案。當應用程式開發完成並識別出有用資料後,可以將資料匯出到資料倉儲以供操作使用,並且可以利用自動化來實現應用程式擴充套件。資料湖還可以 用於資料備份和恢復,因為它們能夠 以低成本進行擴充套件。資料湖非常 適合儲存尚未定義業務需求的“以備不時之需”資料,現在儲存這些資料意味著可以在以後出現新計劃時使用。
從實現方式上看,目前Hadoop是最常用的部署資料湖的技術,也有采用MPP+Hadoop的混合架構,近年也有一些基於公有云儲存的資料湖方案出現和落地。
-
資料整合能力
-
資料計算能力
-
資料治理能力
-
資料服務能力
資料湖在設計的時候,需要充分考慮如何提供給更多的資料需求者來自助服務,使用者可以在資料湖上發現資料、分析資料、改進資料以及最終貢獻資料,從而形成一個從資料到價值鏈路的閉環。在這個過程中,有效的資料資產目錄可以有效地幫助使用者來打通資料鏈路,而多租戶服務能力是核心的技術要求。
-
互操作性
-
有效的成本控制
-
多租戶
-
業務連續性
— 小結 —
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2943892/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別?
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 讀資料湖倉04資料架構與資料工程架構
- 讀資料湖倉08資料架構的演化架構
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 關於資料湖、資料倉儲的想法
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 資料湖和中央資料倉儲的設計
- 資料倉儲被淘汰了?都怪資料湖
- 資料網格將替代資料倉儲或資料湖?- thenewstack
- 阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料阿里
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料湖是下一代資料倉儲?
- 通俗語言解釋資料倉儲、資料湖、資料中臺
- 讀資料湖倉06資料整合
- 讀資料湖倉02資料抽象抽象
- 奈學:資料湖和資料倉儲的區別有哪些?
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 資料湖是誰?那資料倉儲又算什麼?
- 讀資料湖倉01讓資料可信
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 2020-09-23【學習筆記】【企業資料湖】三、Lambda架構:一種資料湖實現模式(1)筆記架構模式
- 美團DB資料同步到資料倉儲的架構與實踐架構
- 讀資料湖倉05資料需要的層次
- 讀資料湖倉03不同型別的資料型別
- 如何選擇適合你的企業資料管理類產品
- 通用資料湖倉一體架構正當時架構
- 讀資料湖倉07描述性資料
- 資料倉儲架構分層設計架構
- 有了資料湖,資料倉儲究竟能不能被取代?
- 一文讀懂選擇資料湖還是資料倉儲
- 談談工業企業如何將資料編織與傳統資料倉儲結合
- 資料湖--架構師如何助力“湖加速”?架構
- 企業的六種資料儲存合規性策略