通過 Apache Zeppelin深入瞭解Delta Lake
Delta Lake 是一個開源專案,可以在資料湖之上構建 Lakehouse 架構。網上有很多關於如何使用 Delta Lake 的教程。這個帖子有點不一樣,是給那些想知道Delta Lake內部機制,特別是交易日誌的人看的:以互動方式瞭解Delta Lake的內部機制。
可以檢視這篇文章,瞭解如何在 Zeppelin docker 中玩 Spark。這裡我簡單總結為以下步驟:
- 步驟 1. git clone https://github.com/zjffdu/zeppelin-notebook.git
- Step 2. 下載Spark 3.1.2(這是我在本教程中使用的,不要使用Spark 3.2.0,目前尚不支援)
- 步驟 3. 執行以下命令啟動 Zeppelin docker 容器。
docker run -u $( id -u ) -p 8080:8080 -p 4040:4040 --rm -v ${spark_location}:/opt/spark -v ${zeppelin_notebook}:/opt/notebook -e ZEPPELIN_NOTEBOOK_DIR=/ opt/notebook -e SPARK_HOME = /opt/spark -e ZEPPELIN_LOCAL_IP=0.0.0.0 --name zeppelin apache/zeppelin:0.10.0
${zeppelin_notebook}是您在步驟 1 中克隆的 notebook 資料夾,
${spark_location}是您在步驟 2 中下載的 Spark 資料夾。
然後開啟http://localhost:8080,點選頁面上“Spark/Deep Dive into Delta Lake”,包含本文的所有程式碼。
。。。
詳細點選標題見原文。
在本文中,主要通過 4 個步驟來玩 Delta Lake:
- 建立表
- 插入資料
- 更新資料
- 刪除資料
在每個步驟中,我都會檢查事務日誌和資料檔案中的更改內容。所有步驟均在Apache Zeppelin docker容器中完成,您可以輕鬆復現,希望本文對您瞭解Delta Lake的內部機制有所幫助。
相關文章
- 資料湖倉比較:Apache Hudi、Delta Lake、Apache IcebergApache
- 資料湖揭祕—Delta Lake
- Delta Lake 資料湖原理和實戰
- 通過UI庫深入瞭解Vue的插槽的使用技巧UIVue
- Databricks決定開源其Delta Lake資料湖
- 通過polyfill瞭解JS(一)JS
- 通過分析LinkedHashMap瞭解LRUHashMap
- 資料湖表格式比較(Iceberg、Hudi 和 Delta Lake)
- 為什麼Databricks Delta Lake表格式開源很重要?
- 關於Delta Lake的ACID事務機制簡介
- [譯] 通過 Lighthouse 瞭解 JavaScript 效能JavaScript
- 通過示例瞭解Vue過渡和動畫Vue動畫
- 深入瞭解ConcurrentHashMapHashMap
- JavaScript——深入瞭解thisJavaScript
- 深入瞭解原型原型
- Spark SQL 教程: 通過示例瞭解 Spark SQLSparkSQL
- 深入瞭解JavaScript執行過程(JS系列之一)JavaScriptJS
- 深入瞭解Synchronized原理synchronized
- 深入瞭解SCN(轉)
- 深入瞭解babel(一)Babel
- [譯] 深入瞭解 FlutterFlutter
- Flutter渲染之通過demo瞭解Key的作用Flutter
- 深入瞭解解析Https - 從瞭解到放棄HTTP
- 深入瞭解SQL隱碼攻擊繞過waf和過濾機制SQL
- 深入瞭解 Object.definePropertyObject
- 深入瞭解 Builder 模式 - frankelUI模式
- 深入瞭解Zookeeper核心原理
- 深入瞭解Object.definePropertyObject
- 深入瞭解MySQL的索引MySql索引
- Spark & ZeppelinSpark
- 通過golang小案例,瞭解golang程式常見機制Golang
- 深入瞭解SpringMVC原始碼解析SpringMVC原始碼
- 深入瞭解JavaScript中的物件JavaScript物件
- 前端進階-深入瞭解物件前端物件
- Nginx深入瞭解-基礎(一)Nginx
- Nginx深入瞭解-基礎(三)Nginx
- 深入瞭解機器學習機器學習
- 資料庫圈周盤點:達夢擬科創板IPO;Delta Lake 2.0開源資料庫