袋鼠雲資料湖平臺「DataLake」,儲存全量資料,打造數字底座

數棧DTinsight發表於2022-11-25

一、什麼是資料湖?

在探討資料湖技術或如何構建資料湖之前,我們需要先明確,什麼是資料湖?

資料湖的起源,應該追溯到 2010 年 10 月。基於對半結構化、非結構化儲存的需求,同時為了推廣自家的 Pentaho 產品以及 Hadoop,2010 年 Pentaho 的創始人兼 CTO James Dixon 首次提出了資料湖的概念。

資料湖概念一經提出,便受到了廣泛關注,人們發現此概念代表了一種新的資料儲存理念,海量異構資料統一儲存可以很好地解決企業資料孤島問題,方便企業資料管理與應用。

「技術概念的提出,本質都是為了業務場景服務的,是為解決某類特定場景的問題。」

隨著新一代資訊科技的發展,以及數字化轉型的深入推進,資料作為一種 “無形資產” 的重要性變得比以往更為凸顯。物聯網、直播、醫療等各種業務場景每天都會生成幾 GB、幾百 GB,甚至 TB 級的原始資料。面對海量資料的儲存以及結構化資料、文字、二進位制(圖片、音訊、影片)等資料的儲存應用,傳統架構的離線資料倉儲越來越 “力不從心”。

file

與此同時,隨著大資料技術的融合發展,資料湖不斷演變,當前我們所討論的資料湖,已經遠遠超過了當初 James Dixon 所定義的資料湖。

根據維基的定義,資料湖是一個以原始格式 (通常是物件塊或檔案) 儲存數的系統或儲存庫。資料湖通常是所有企業資料的單一儲存,用於報告、視覺化、高階分析和機器學習等任務。資料湖可以包括來自關聯式資料庫的結構化資料 (行和列)、半結構化資料 (CSV、日誌、XML、JSON)、非結構化資料 (電子郵件、文件、pdf) 和二進位制資料 (影像、音訊、影片)。  file

二、袋鼠雲資料湖平臺

數字經濟時代,如何有效利用不同來源、規模巨大的資料,從而加快資料價值化的呈現,把資料用活,成為很多企業的難題。

秉承「讓資料創造價值」的使命,袋鼠雲進一步夯實企業數字化轉型的資料基座。今年 7 月的 2022 年產品釋出會上,袋鼠雲首發資料湖平臺 ——DataLake。

file

DataLake, 提供面向湖倉一體的資料湖管理分析服務,基於統一的後設資料抽象構建一致性的資料訪問,提供海量資料的儲存管理和實時分析處理能力,可以幫助企業快速構建湖倉一體化平臺,完成數字化基礎建設。

DataLake 讓業務響應更加及時,讓企業運轉更加高效。

三、DataLake 的核心特性

下文為大家著重介紹 DataLake 的核心特性:

1. 高效資料入湖

透過⾃研批流⼀體資料整合框架 ChunJun,視覺化的任務配置,將外部資料高效入湖,讓資料具備更高的新鮮度。同時也可對已有表 hive 結構進行快速掃描,一鍵生成湖表資訊,節省 10x 倍資料的傳輸時間和 50% 磁碟空間。

file

・引入 ChunJun,提供資料同步效率實現秒級快速入湖

・全資料同步量 / 增量一體化,鏈路短元件少開發維護成本低

・不影響線上業務的穩定

2. 統一後設資料管理

支援物理表、虛擬後設資料的統一管理,支援表結構變更、時間旅行、資料檔案自動治理能力。

file

袋鼠雲資料湖 DataLake 提供統一的線上資料目錄和離線資料治理能力,主要由以下四個部分構成:

・元模型定義:是對後設資料的抽象描述,定義了通用元模型和 Iceberg 元模型

・後設資料採集:支援基於 PULL 定時拉取和 PUSH 主動上報的兩種方式採集後設資料,保證後設資料的實時同步

・後設資料儲存:根據不同後設資料的資料結構和用途,形成以 Hive Metastore 為主,關係型資料庫為輔的儲存架構

・後設資料應用:提供線資料目錄和離線資料治理能力。線上資料目錄可為資料湖的計算引擎提供 Schema 管理功能;離線資料治理包括,小檔案合併、快照清理、孤兒檔案清理能治理能力,可以有效降低資料儲存提高資料查詢效率。同時還支援表結構變更、時間旅行的能力,可以快速對湖表進行加列改列刪列,而資料無需重寫,支援對資料和 Schema 進行版本管理一鍵回滾

3. 多級索引加速

高效 Data Skipping 方案,支援多種索引模式,如 bloom index,data skipping index ……

file

4. 高效能聯邦查詢

內建多種資料聯結器,並在開源基礎上提供更高效的索引結構,極大提高了資料的跨源聯合分析查詢能力,可快速完成各類分析需求,帶來極致的互動式資料分析體驗。

支援 MySQL、Oracle、Hive、Iceberg、ClickHouse、MongoDB 等 30 + 異構資料來源聯結器,滿足市場 95% 客戶需求。進行 Connector 整合統一 SQL,對外提供標準資料 API 服務,極大簡化使用者多資料來源資料查詢的複雜度,一個標準介面可以同時查詢 30 + 資料庫。

file

5. 事務支援

支援所有 ACID 語義,T+0 資料更新。

file

・基於 Iceberg 架構資料湖支援 Merge On Read 模式,資料實際應用時進行 Merge 操作,可以支援近實時的資料匯入和實時資料讀取

・支援 ACID,保證了多工資料同步的寫入和查詢的隔離性,不會產生髒資料

・支援行級別快速資料更新,極大提高資料更新效率

6. 流批一體

基於資料儲存層的統一邏輯,支援流和批的一體化分析,一套架構同時滿足流批業務操作,降低學習、使用、維護成本。

異構資料來源資料透過 ChunJun 同步到資料湖平臺,歷史資料儲存 Iceberg 湖內,可以提供更高效的查詢同時具備廉價儲存。增量資料運用訊息佇列提供低延時的寫入和消費能力,儲存於 kafka,同時 kafka 內資料自動同步到 Iceberg 內,並記錄 kafka 偏移,以保證資料一致性。

資料進行流式消費時,湖內會自動根據資料讀取情況判斷讀取 Kafka 還是 Iceberg 內資料,系統進行自動切換,以實現秒級毫秒級的資料實時查詢。

file

7. 多種底層儲存

湖倉平臺支援 HDFS、S3、OSS、MInio 等多種底層儲存,靈活滿足客戶不同資料儲存需求。

四、一起體驗 DataLake

結合這些核心特性,接下來一起玩轉袋鼠雲資料湖平臺 DataLake 吧~

建立 CalaLog

首先建立一個 Calalog, 一個 Calalog 只允許繫結一個 Hive MetaStore,Calalog 與 Hive MetaStore 是一一對應,使用者可以使用 Calalog 進行業務部門資料隔離。

file

建立 Database

建立一個 Database 繫結到 Calalog 上。

file

建立一張 Table

選擇 Table 所在的 Catalog、Database,建立一張 Iceberg 湖表,設定表普通列。支援對普通列欄位設定主鍵,可以用作表的唯一標識。

選擇普通列欄位作為分割槽欄位,設定分割槽欄位的轉換函式,袋鼠雲資料湖平臺支援時間欄位按照年、月、日和小時粒度劃分割槽,支援行組級索引設定和自定義高階引數設定。

file

快照管理

袋鼠雲資料湖平臺支援快照歷史管理,支援多版本間快照變更對比,支援湖表時間旅行,一鍵回滾到指定資料版本。

file

資料入湖

建立入湖任務,選擇一張 Hive 進行轉表入湖,一鍵生成湖表資訊。對比資料同步入湖,可以節省 10x 倍資料的傳輸時間。

file

資料檔案治理

建立資料檔案治理任務模板,支援小檔案合併、快照清理、孤兒檔案清理等資料檔案治理任務,支援立即支援、預約治理、週期治理多種資料治理方式。

file

想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2925127/,如需轉載,請註明出處,否則將追究法律責任。

相關文章