袋鼠雲資料湖平臺「DataLake」,儲存全量資料,打造數字底座
一、什麼是資料湖?
在探討資料湖技術或如何構建資料湖之前,我們需要先明確,什麼是資料湖?
資料湖的起源,應該追溯到 2010 年 10 月。基於對半結構化、非結構化儲存的需求,同時為了推廣自家的 Pentaho 產品以及 Hadoop,2010 年 Pentaho 的創始人兼 CTO James Dixon 首次提出了資料湖的概念。
資料湖概念一經提出,便受到了廣泛關注,人們發現此概念代表了一種新的資料儲存理念,海量異構資料統一儲存可以很好地解決企業資料孤島問題,方便企業資料管理與應用。
「技術概念的提出,本質都是為了業務場景服務的,是為解決某類特定場景的問題。」
隨著新一代資訊科技的發展,以及數字化轉型的深入推進,資料作為一種 “無形資產” 的重要性變得比以往更為凸顯。物聯網、直播、醫療等各種業務場景每天都會生成幾 GB、幾百 GB,甚至 TB 級的原始資料。面對海量資料的儲存以及結構化資料、文字、二進位制(圖片、音訊、影片)等資料的儲存應用,傳統架構的離線資料倉儲越來越 “力不從心”。
與此同時,隨著大資料技術的融合發展,資料湖不斷演變,當前我們所討論的資料湖,已經遠遠超過了當初 James Dixon 所定義的資料湖。
根據維基的定義,資料湖是一個以原始格式 (通常是物件塊或檔案) 儲存數的系統或儲存庫。資料湖通常是所有企業資料的單一儲存,用於報告、視覺化、高階分析和機器學習等任務。資料湖可以包括來自關聯式資料庫的結構化資料 (行和列)、半結構化資料 (CSV、日誌、XML、JSON)、非結構化資料 (電子郵件、文件、pdf) 和二進位制資料 (影像、音訊、影片)。
二、袋鼠雲資料湖平臺
數字經濟時代,如何有效利用不同來源、規模巨大的資料,從而加快資料價值化的呈現,把資料用活,成為很多企業的難題。
秉承「讓資料創造價值」的使命,袋鼠雲進一步夯實企業數字化轉型的資料基座。今年 7 月的 2022 年產品釋出會上,袋鼠雲首發資料湖平臺 ——DataLake。
DataLake, 提供面向湖倉一體的資料湖管理分析服務,基於統一的後設資料抽象構建一致性的資料訪問,提供海量資料的儲存管理和實時分析處理能力,可以幫助企業快速構建湖倉一體化平臺,完成數字化基礎建設。
DataLake 讓業務響應更加及時,讓企業運轉更加高效。
三、DataLake 的核心特性
下文為大家著重介紹 DataLake 的核心特性:
1. 高效資料入湖
透過⾃研批流⼀體資料整合框架 ChunJun,視覺化的任務配置,將外部資料高效入湖,讓資料具備更高的新鮮度。同時也可對已有表 hive 結構進行快速掃描,一鍵生成湖表資訊,節省 10x 倍資料的傳輸時間和 50% 磁碟空間。
・引入 ChunJun,提供資料同步效率實現秒級快速入湖
・全資料同步量 / 增量一體化,鏈路短元件少開發維護成本低
・不影響線上業務的穩定
2. 統一後設資料管理
支援物理表、虛擬後設資料的統一管理,支援表結構變更、時間旅行、資料檔案自動治理能力。
袋鼠雲資料湖 DataLake 提供統一的線上資料目錄和離線資料治理能力,主要由以下四個部分構成:
・元模型定義:是對後設資料的抽象描述,定義了通用元模型和 Iceberg 元模型
・後設資料採集:支援基於 PULL 定時拉取和 PUSH 主動上報的兩種方式採集後設資料,保證後設資料的實時同步
・後設資料儲存:根據不同後設資料的資料結構和用途,形成以 Hive Metastore 為主,關係型資料庫為輔的儲存架構
・後設資料應用:提供線資料目錄和離線資料治理能力。線上資料目錄可為資料湖的計算引擎提供 Schema 管理功能;離線資料治理包括,小檔案合併、快照清理、孤兒檔案清理能治理能力,可以有效降低資料儲存提高資料查詢效率。同時還支援表結構變更、時間旅行的能力,可以快速對湖表進行加列改列刪列,而資料無需重寫,支援對資料和 Schema 進行版本管理一鍵回滾
3. 多級索引加速
高效 Data Skipping 方案,支援多種索引模式,如 bloom index,data skipping index ……
4. 高效能聯邦查詢
內建多種資料聯結器,並在開源基礎上提供更高效的索引結構,極大提高了資料的跨源聯合分析查詢能力,可快速完成各類分析需求,帶來極致的互動式資料分析體驗。
支援 MySQL、Oracle、Hive、Iceberg、ClickHouse、MongoDB 等 30 + 異構資料來源聯結器,滿足市場 95% 客戶需求。進行 Connector 整合統一 SQL,對外提供標準資料 API 服務,極大簡化使用者多資料來源資料查詢的複雜度,一個標準介面可以同時查詢 30 + 資料庫。
5. 事務支援
支援所有 ACID 語義,T+0 資料更新。
・基於 Iceberg 架構資料湖支援 Merge On Read 模式,資料實際應用時進行 Merge 操作,可以支援近實時的資料匯入和實時資料讀取
・支援 ACID,保證了多工資料同步的寫入和查詢的隔離性,不會產生髒資料
・支援行級別快速資料更新,極大提高資料更新效率
6. 流批一體
基於資料儲存層的統一邏輯,支援流和批的一體化分析,一套架構同時滿足流批業務操作,降低學習、使用、維護成本。
異構資料來源資料透過 ChunJun 同步到資料湖平臺,歷史資料儲存 Iceberg 湖內,可以提供更高效的查詢同時具備廉價儲存。增量資料運用訊息佇列提供低延時的寫入和消費能力,儲存於 kafka,同時 kafka 內資料自動同步到 Iceberg 內,並記錄 kafka 偏移,以保證資料一致性。
資料進行流式消費時,湖內會自動根據資料讀取情況判斷讀取 Kafka 還是 Iceberg 內資料,系統進行自動切換,以實現秒級毫秒級的資料實時查詢。
7. 多種底層儲存
湖倉平臺支援 HDFS、S3、OSS、MInio 等多種底層儲存,靈活滿足客戶不同資料儲存需求。
四、一起體驗 DataLake
結合這些核心特性,接下來一起玩轉袋鼠雲資料湖平臺 DataLake 吧~
建立 CalaLog
首先建立一個 Calalog, 一個 Calalog 只允許繫結一個 Hive MetaStore,Calalog 與 Hive MetaStore 是一一對應,使用者可以使用 Calalog 進行業務部門資料隔離。
建立 Database
建立一個 Database 繫結到 Calalog 上。
建立一張 Table
選擇 Table 所在的 Catalog、Database,建立一張 Iceberg 湖表,設定表普通列。支援對普通列欄位設定主鍵,可以用作表的唯一標識。
選擇普通列欄位作為分割槽欄位,設定分割槽欄位的轉換函式,袋鼠雲資料湖平臺支援時間欄位按照年、月、日和小時粒度劃分割槽,支援行組級索引設定和自定義高階引數設定。
快照管理
袋鼠雲資料湖平臺支援快照歷史管理,支援多版本間快照變更對比,支援湖表時間旅行,一鍵回滾到指定資料版本。
資料入湖
建立入湖任務,選擇一張 Hive 進行轉表入湖,一鍵生成湖表資訊。對比資料同步入湖,可以節省 10x 倍資料的傳輸時間。
資料檔案治理
建立資料檔案治理任務模板,支援小檔案合併、快照清理、孤兒檔案清理等資料檔案治理任務,支援立即支援、預約治理、週期治理多種資料治理方式。
想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2925127/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料儲存智慧化,杉巖打造新基建數字底座
- 杉巖資料:海量智慧儲存,打造新基建數字底座
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 貝殼找房: 為 AI 平臺打造混合多雲的儲存加速底座AI
- 阿里云云原生資料湖體系全解讀——資料湖開發治理平臺 DataWorks阿里
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料湖+資料中臺,金山雲大資料平臺如何攻克資料價值落地難關大資料
- 通俗語言解釋資料倉儲、資料湖、資料中臺
- 打造全鏈路資料隱私合規平臺
- 2021WAIC | 大資料基礎軟體助力打造城市數字底座AI大資料
- 杉巖資料加入龍蜥社群,攜手打造堅實資料儲存底座
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料阿里
- 訓練指南:資料訓練定期儲存【GpuMall雲平臺特價】GPU
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 華為雲GaussDB打造金融行業堅實資料底座,共創數字金融新未來行業
- 基於Apache Hudi在Google雲構建資料湖平臺ApacheGo
- 星環科技多模型資料統一儲存的大資料分散式儲存平臺方案分享模型大資料分散式
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 大資料儲存平臺之異構儲存實踐深度解讀大資料
- 星環科技郭卓異:多模型資料統一儲存的大資料數字底座設計與應用場景模型大資料
- 資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別?
- 他來了!袋鼠雲大資料基礎平臺EasyMR正式上線大資料
- 攜手長亮資料打造資料底座 GBase 8a MPP助力承德銀行數字化轉型
- 杉巖資料:從資料到洞察,如何用物件儲存支撐新型資料湖物件
- 關於資料湖、資料倉儲的想法
- 資料倉儲被淘汰了?都怪資料湖
- 資料成本:雲端儲存成本高嗎如何節省資料儲存成本
- 國產自研、安全、高可用——袋鼠雲大資料基礎平臺EasyMR築基企業數字化轉型大資料
- 淺談G行資料湖平臺建設
- 使用 Flink Hudi 構建流式資料湖平臺
- 歐派家居牽手用友雲平臺 打造標準化資料資產管理平臺
- 資料網格將替代資料倉儲或資料湖?- thenewstack
- 低程式碼平臺+阿里雲端儲存:讓業務開發更簡單,資料儲存更安全阿里
- 使用 Iceberg on Kubernetes 打造新一代雲原生資料湖
- 資料湖和中央資料倉儲的設計
- 資料儲存(1):從資料儲存看人類文明-資料儲存器發展歷程