一、什麼是資料湖？

在探討資料湖技術或如何構建資料湖之前，我們需要先明確，什麼是資料湖？

資料湖的起源，應該追溯到 2010 年 10 月。基於對半結構化、非結構化儲存的需求，同時為了推廣自家的 Pentaho 產品以及 Hadoop，2010 年 Pentaho 的創始人兼 CTO James Dixon 首次提出了資料湖的概念。

資料湖概念一經提出，便受到了廣泛關注，人們發現此概念代表了一種新的資料儲存理念，海量異構資料統一儲存可以很好地解決企業資料孤島問題，方便企業資料管理與應用。

「技術概念的提出，本質都是為了業務場景服務的，是為解決某類特定場景的問題。」

隨著新一代資訊科技的發展，以及數字化轉型的深入推進，資料作為一種 “無形資產” 的重要性變得比以往更為凸顯。物聯網、直播、醫療等各種業務場景每天都會生成幾 GB、幾百 GB，甚至 TB 級的原始資料。面對海量資料的儲存以及結構化資料、文字、二進位制（圖片、音訊、影片）等資料的儲存應用，傳統架構的離線資料倉儲越來越 “力不從心”。

file

與此同時，隨著大資料技術的融合發展，資料湖不斷演變，當前我們所討論的資料湖，已經遠遠超過了當初 James Dixon 所定義的資料湖。

根據維基的定義，資料湖是一個以原始格式 (通常是物件塊或檔案) 儲存數的系統或儲存庫。資料湖通常是所有企業資料的單一儲存，用於報告、視覺化、高階分析和機器學習等任務。資料湖可以包括來自關聯式資料庫的結構化資料 (行和列)、半結構化資料 (CSV、日誌、XML、JSON)、非結構化資料 (電子郵件、文件、pdf) 和二進位制資料 (影像、音訊、影片)。 file

二、袋鼠雲資料湖平臺

數字經濟時代，如何有效利用不同來源、規模巨大的資料，從而加快資料價值化的呈現，把資料用活，成為很多企業的難題。

秉承「讓資料創造價值」的使命，袋鼠雲進一步夯實企業數字化轉型的資料基座。今年 7 月的 2022 年產品釋出會上，袋鼠雲首發資料湖平臺 ——DataLake。

file

DataLake, 提供面向湖倉一體的資料湖管理分析服務，基於統一的後設資料抽象構建一致性的資料訪問，提供海量資料的儲存管理和實時分析處理能力，可以幫助企業快速構建湖倉一體化平臺，完成數字化基礎建設。

DataLake 讓業務響應更加及時，讓企業運轉更加高效。

三、DataLake 的核心特性

下文為大家著重介紹 DataLake 的核心特性：

1. 高效資料入湖

透過⾃研批流⼀體資料整合框架 ChunJun，視覺化的任務配置，將外部資料高效入湖，讓資料具備更高的新鮮度。同時也可對已有表 hive 結構進行快速掃描，一鍵生成湖表資訊，節省 10x 倍資料的傳輸時間和 50% 磁碟空間。

file

・引入 ChunJun，提供資料同步效率實現秒級快速入湖

・全資料同步量 / 增量一體化，鏈路短元件少開發維護成本低

・不影響線上業務的穩定

2. 統一後設資料管理

支援物理表、虛擬後設資料的統一管理，支援表結構變更、時間旅行、資料檔案自動治理能力。

file

袋鼠雲資料湖 DataLake 提供統一的線上資料目錄和離線資料治理能力，主要由以下四個部分構成：

・元模型定義：是對後設資料的抽象描述，定義了通用元模型和 Iceberg 元模型

・後設資料採集：支援基於 PULL 定時拉取和 PUSH 主動上報的兩種方式採集後設資料，保證後設資料的實時同步

・後設資料儲存：根據不同後設資料的資料結構和用途，形成以 Hive Metastore 為主，關係型資料庫為輔的儲存架構

・後設資料應用：提供線資料目錄和離線資料治理能力。線上資料目錄可為資料湖的計算引擎提供 Schema 管理功能；離線資料治理包括，小檔案合併、快照清理、孤兒檔案清理能治理能力，可以有效降低資料儲存提高資料查詢效率。同時還支援表結構變更、時間旅行的能力，可以快速對湖表進行加列改列刪列，而資料無需重寫，支援對資料和 Schema 進行版本管理一鍵回滾

3. 多級索引加速

高效 Data Skipping 方案，支援多種索引模式，如 bloom index,data skipping index ……

file

4. 高效能聯邦查詢

內建多種資料聯結器，並在開源基礎上提供更高效的索引結構，極大提高了資料的跨源聯合分析查詢能力，可快速完成各類分析需求，帶來極致的互動式資料分析體驗。

支援 MySQL、Oracle、Hive、Iceberg、ClickHouse、MongoDB 等 30 + 異構資料來源聯結器，滿足市場 95% 客戶需求。進行 Connector 整合統一 SQL，對外提供標準資料 API 服務，極大簡化使用者多資料來源資料查詢的複雜度，一個標準介面可以同時查詢 30 + 資料庫。

file

5. 事務支援

支援所有 ACID 語義，T+0 資料更新。

file

・基於 Iceberg 架構資料湖支援 Merge On Read 模式，資料實際應用時進行 Merge 操作，可以支援近實時的資料匯入和實時資料讀取

・支援 ACID，保證了多工資料同步的寫入和查詢的隔離性，不會產生髒資料

・支援行級別快速資料更新，極大提高資料更新效率

6. 流批一體

基於資料儲存層的統一邏輯，支援流和批的一體化分析，一套架構同時滿足流批業務操作，降低學習、使用、維護成本。

異構資料來源資料透過 ChunJun 同步到資料湖平臺，歷史資料儲存 Iceberg 湖內，可以提供更高效的查詢同時具備廉價儲存。增量資料運用訊息佇列提供低延時的寫入和消費能力，儲存於 kafka，同時 kafka 內資料自動同步到 Iceberg 內，並記錄 kafka 偏移，以保證資料一致性。

資料進行流式消費時，湖內會自動根據資料讀取情況判斷讀取 Kafka 還是 Iceberg 內資料，系統進行自動切換，以實現秒級毫秒級的資料實時查詢。

file

7. 多種底層儲存

湖倉平臺支援 HDFS、S3、OSS、MInio 等多種底層儲存，靈活滿足客戶不同資料儲存需求。

四、一起體驗 DataLake

結合這些核心特性，接下來一起玩轉袋鼠雲資料湖平臺 DataLake 吧～

建立 CalaLog

首先建立一個 Calalog, 一個 Calalog 只允許繫結一個 Hive MetaStore，Calalog 與 Hive MetaStore 是一一對應，使用者可以使用 Calalog 進行業務部門資料隔離。

file

建立 Database

建立一個 Database 繫結到 Calalog 上。

file

建立一張 Table

選擇 Table 所在的 Catalog、Database，建立一張 Iceberg 湖表，設定表普通列。支援對普通列欄位設定主鍵，可以用作表的唯一標識。

選擇普通列欄位作為分割槽欄位，設定分割槽欄位的轉換函式，袋鼠雲資料湖平臺支援時間欄位按照年、月、日和小時粒度劃分割槽，支援行組級索引設定和自定義高階引數設定。

file

快照管理

袋鼠雲資料湖平臺支援快照歷史管理，支援多版本間快照變更對比，支援湖表時間旅行，一鍵回滾到指定資料版本。

file

資料入湖

建立入湖任務，選擇一張 Hive 進行轉表入湖，一鍵生成湖表資訊。對比資料同步入湖，可以節省 10x 倍資料的傳輸時間。

file

資料檔案治理

建立資料檔案治理任務模板，支援小檔案合併、快照清理、孤兒檔案清理等資料檔案治理任務，支援立即支援、預約治理、週期治理多種資料治理方式。

file

想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友，瀏覽袋鼠雲官網：https://www.dtstack.com/?src=szitpub

袋鼠雲資料湖平臺「DataLake」，儲存全量資料，打造數字底座

一、什麼是資料湖？

二、袋鼠雲資料湖平臺

三、DataLake 的核心特性

1. 高效資料入湖

2. 統一後設資料管理

3. 多級索引加速

4. 高效能聯邦查詢

5. 事務支援

6. 流批一體

7. 多種底層儲存

四、一起體驗 DataLake

建立 CalaLog

建立 Database

建立一張 Table

快照管理

資料入湖

資料檔案治理

相關文章