關於資料湖、資料倉儲的想法

耗子哥信徒發表於2024-06-06

原文網址 : https://www.cnblogs.com/xushengbin/p/18234298

一：資料糊定義：
1、資料湖的出現，主要是為了去滿足企業對原始資料的儲存、管理和再加工的需求。首先要有一個低成本的儲存，用於儲存結構化、半結構化，甚至非結構化的資料；另外，有一套包括資料處理、資料管理以及資料治理在內的一體化解決方案。
2、從0到1搭建資料糊，原始資料儲存在hdfs上，然後上層構建計算層、分析層等。

它和資料倉儲的區別在於：把結構化和非結構化的資料集中儲存。

doris在資料糊中的應用：

利用 Doris 非常高效的查詢引擎，對湖上資料進行加速分析。
把這些外部的資料來源，統一到 Doris 的源資料的對映結構上，使用者在透過 Doris 去查詢這些外部資料來源的時候，可以提供一致的查詢體驗。https://doris.apache.org/zh-CN/docs/lakehouse/database/jdbc
統一資料整合。利用 Doris 的資料處理能力對這些資料進行加工。加工完的資料一方面可以直接透過 Doris 對外提供查詢，也可以匯出到外部儲存系統（如ES）

二：doris使用場景擴充：
1、doris除了適合資料分析場景，在時序資料和日誌資料儲存方面表現也很優秀。
https://www.selectdb.com/blog/355

2、https://www.infoq.cn/article/mow1cjlqo2ih6zkdozes

三：結合一、二兩點，我們在業務上可以把這幾類資料統一起來，打通資料孤島，降低運維成本。
目前現狀：

資料分析： doris
時序資料：
- 儲存influxdb。
- 使用場景：查詢車輛軌跡、空間索引、倒排索引（查詢一個客戶的裝置資料）
- 開源版本不支援分散式
物聯網報文：
- 儲存es。
- 使用場景：有全文檢索的需求

這幾類資料可以集中儲存在doris中。同時帶來的缺點：

es有kibana UI工具，influxdb也有配套的生態，doris會缺失這些。
解決辦法：資料雙寫，doris真正用來支撐業務，而es、influxdb用來儲存熱資料便於使用UI工具查詢

四：業務上需要理清資料流、資料血緣關係

資料湖+資料倉儲 = 資料湖庫架構
2022-01-13
架構
資料湖會取代資料倉儲嗎?
2022-11-09
談談資料湖和資料倉儲
2022-11-29
資料湖 vs 資料倉儲 vs 資料庫
2022-01-16
資料庫
資料倉儲、資料湖與湖倉一體的區別與聯絡
2024-02-20
資料湖和中央資料倉儲的設計
2023-12-06
資料倉儲被淘汰了？都怪資料湖
2021-03-29
資料倉儲 vs 資料湖 vs 湖倉一體：如何基於自身資料策略，選擇最合適的資料管理方案？
2024-05-06
萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
2022-02-23
資料湖 VS 資料倉儲之爭？阿里提出大資料架構新概念：湖倉一體
2020-10-12
阿里大資料架構
資料網格將替代資料倉儲或資料湖？- thenewstack
2022-01-30
資料湖是下一代資料倉儲？
2022-12-26
奈學：資料湖和資料倉儲的區別有哪些？
2020-06-28
通俗語言解釋資料倉儲、資料湖、資料中臺
2020-09-11
一文讀懂：本地資料湖丨資料倉儲丨雲資料湖的利與弊
2022-06-02
資料湖是誰？那資料倉儲又算什麼？
2020-12-26
讀資料湖倉06資料整合
2024-10-04
讀資料湖倉02資料抽象
2024-09-28
抽象
資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別？
2021-09-14
有了資料湖，資料倉儲究竟能不能被取代？
2023-05-11
一文讀懂選擇資料湖還是資料倉儲
2022-10-20
讀資料湖倉01讓資料可信
2024-09-27
資料湖 vs 倉庫 vs 資料庫
2022-01-16
資料庫
資料倉儲、資料集市、資料湖，你的企業更適合哪種資料管理架構？
2023-04-04
架構
讀資料湖倉05資料需要的層次
2024-10-03
讀資料湖倉03不同型別的資料
2024-09-30
型別
讀資料湖倉08資料架構的演化
2024-10-06
架構
讀資料湖倉07描述性資料
2024-10-05
讀資料湖倉04資料架構與資料工程
2024-10-02
架構
基於OneData的資料倉儲建設
2022-11-30
資料庫倉庫系列：(一)什麼是資料倉儲，為什麼要資料倉儲
2020-12-12
資料庫
資料倉儲與大資料的區別
2024-08-09
大資料
關於InnoDB表資料和索引資料的儲存
2022-07-18
索引
淺談資料倉儲和大資料
2018-06-21
大資料
資料倉儲 - ER模型
2023-05-15
模型
基於Greenplum,postgreSQL的大型資料倉儲實踐
2018-07-18
SQL
資料湖與資料倉儲的根本區別，在於前者是“市場經濟”，而後者是“計劃經濟”
2022-08-02
ETL資料倉儲的使用方式
2024-02-26

關於資料湖、資料倉儲的想法

相關文章