關於資料湖、資料倉儲的想法

耗子哥信徒發表於2024-06-06

一:資料糊定義:
1、資料湖的出現,主要是為了去滿足企業對原始資料的儲存、管理和再加工的需求。首先要有一個低成本的儲存,用於儲存結構化、半結構化,甚至非結構化的資料;另外,有一套包括資料處理、資料管理以及資料治理在內的一體化解決方案。
2、從0到1搭建資料糊,原始資料儲存在hdfs上,然後上層構建計算層、分析層等。

它和資料倉儲的區別在於:把結構化和非結構化的資料集中儲存。

doris在資料糊中的應用:

  • 利用 Doris 非常高效的查詢引擎,對湖上資料進行加速分析。
  • 把這些外部的資料來源,統一到 Doris 的源資料的對映結構上,使用者在透過 Doris 去查詢這些外部資料來源的時候,可以提供一致的查詢體驗。https://doris.apache.org/zh-CN/docs/lakehouse/database/jdbc
  • 統一資料整合。利用 Doris 的資料處理能力對這些資料進行加工。加工完的資料一方面可以直接透過 Doris 對外提供查詢,也可以匯出到外部儲存系統(如ES)

二:doris使用場景擴充:
1、doris除了適合資料分析場景,在時序資料和日誌資料儲存方面表現也很優秀。
https://www.selectdb.com/blog/355

2、https://www.infoq.cn/article/mow1cjlqo2ih6zkdozes

三:結合一、二兩點,我們在業務上可以把這幾類資料統一起來,打通資料孤島,降低運維成本。
目前現狀:

  • 資料分析: doris
  • 時序資料:
    • 儲存influxdb。
    • 使用場景:查詢車輛軌跡、空間索引、倒排索引(查詢一個客戶的裝置資料)
    • 開源版本不支援分散式
  • 物聯網報文:
    • 儲存es。
    • 使用場景:有全文檢索的需求

這幾類資料可以集中儲存在doris中。同時帶來的缺點:

  • es有kibana UI工具,influxdb也有配套的生態,doris會缺失這些。
  • 解決辦法:資料雙寫,doris真正用來支撐業務,而es、influxdb用來儲存熱資料便於使用UI工具查詢

四:業務上需要理清資料流、資料血緣關係

相關文章