通過 Apache Zeppelin深入瞭解Delta Lake

banq發表於2021-12-26

Delta Lake 是一個開源專案，可以在資料湖之上構建 Lakehouse 架構。網上有很多關於如何使用 Delta Lake 的教程。這個帖子有點不一樣，是給那些想知道Delta Lake內部機制，特別是交易日誌的人看的：以互動方式瞭解Delta Lake的內部機制。

可以檢視這篇文章，瞭解如何在 Zeppelin docker 中玩 Spark。這裡我簡單總結為以下步驟：

步驟 1. git clone https://github.com/zjffdu/zeppelin-notebook.git
Step 2. 下載Spark 3.1.2（這是我在本教程中使用的，不要使用Spark 3.2.0，目前尚不支援）

步驟 3. 執行以下命令啟動 Zeppelin docker 容器。

docker run -u $( id -u ) -p 8080:8080 -p 4040:4040 --rm -v ${spark_location}:/opt/spark -v ${zeppelin_notebook}:/opt/notebook -e ZEPPELIN_NOTEBOOK_DIR=/ opt/notebook -e SPARK_HOME = /opt/spark -e ZEPPELIN_LOCAL_IP=0.0.0.0 --name zeppelin apache/zeppelin:0.10.0

${zeppelin_notebook}是您在步驟 1 中克隆的 notebook 資料夾，

${spark_location}是您在步驟 2 中下載的 Spark 資料夾。

然後開啟http://localhost:8080，點選頁面上“Spark/Deep Dive into Delta Lake”，包含本文的所有程式碼。

。。。

詳細點選標題見原文。

在本文中，主要通過 4 個步驟來玩 Delta Lake：

建立表
插入資料
更新資料
刪除資料

在每個步驟中，我都會檢查事務日誌和資料檔案中的更改內容。所有步驟均在Apache Zeppelin docker容器中完成，您可以輕鬆復現，希望本文對您瞭解Delta Lake的內部機制有所幫助。

資料湖倉比較：Apache Hudi、Delta Lake、Apache Iceberg
2022-08-22
Apache
資料湖揭祕—Delta Lake
2022-05-11
Delta Lake 資料湖原理和實戰
2022-04-27
通過UI庫深入瞭解Vue的插槽的使用技巧
2022-01-17
UIVue
Databricks決定開源其Delta Lake資料湖
2022-07-06
通過polyfill瞭解JS(一)
2018-09-14
JS
通過分析LinkedHashMap瞭解LRU
2018-09-03
HashMap
關於Delta Lake的ACID事務機制簡介
2021-12-25
資料湖表格式比較（Iceberg、Hudi 和 Delta Lake）
2022-06-14
為什麼Databricks Delta Lake表格式開源很重要？
2022-07-04
[譯] 通過 Lighthouse 瞭解 JavaScript 效能
2018-10-28
JavaScript
通過示例瞭解Vue過渡和動畫
2022-01-28
Vue動畫
深入瞭解原型
2018-10-16
原型
深入瞭解ConcurrentHashMap
2020-06-02
HashMap
JavaScript——深入瞭解this
2021-01-26
JavaScript
Spark SQL 教程：通過示例瞭解 Spark SQL
2021-12-29
SparkSQL
深入瞭解JavaScript執行過程（JS系列之一）
2020-03-06
JavaScriptJS
深入瞭解babel（一）
2019-02-16
Babel
[譯] 深入瞭解 Flutter
2019-03-02
Flutter
深入瞭解Synchronized原理
2019-05-04
synchronized
深入瞭解SCN(轉)
2019-05-29
Flutter渲染之通過demo瞭解Key的作用
2020-07-03
Flutter
深入瞭解解析Https - 從瞭解到放棄
2019-02-15
HTTP
深入瞭解SQL隱碼攻擊繞過waf和過濾機制
2020-08-19
SQL
深入瞭解Object.defineProperty
2018-09-28
Object
深入瞭解MySQL的索引
2018-09-06
MySql索引
深入瞭解 Object.defineProperty
2022-05-01
Object
深入瞭解 Builder 模式 - frankel
2021-09-15
UI模式
深入瞭解Zookeeper核心原理
2021-04-28
Spark & Zeppelin
2021-09-09
Spark
資料庫圈周盤點：達夢擬科創板IPO；Delta Lake 2.0開源
2022-07-04
資料庫
通過golang小案例，瞭解golang程式常見機制
2021-03-04
Golang
深入瞭解JavaScript中的物件
2019-03-01
JavaScript物件
前端進階-深入瞭解物件
2018-11-13
前端物件
Nginx深入瞭解-基礎(一)
2019-01-19
Nginx
Nginx深入瞭解-基礎(三)
2019-01-19
Nginx
深入瞭解機器學習
2018-09-04
機器學習
深入瞭解SpringMVC原始碼解析
2021-11-27
SpringMVC原始碼

通過 Apache Zeppelin深入瞭解Delta Lake

相關文章