使用 Iceberg on Kubernetes 打造新一代雲原生資料湖

騰訊雲原生發表於2020-11-09

原文網址 : http://blog.itpub.net/69984638/viewspace-2732903/

背景

大資料發展至今，按照 Google 2003年釋出的《The Google File System》第一篇論文算起，已走過17個年頭。可惜的是 Google 當時並沒有開源其技術，“僅僅”是發表了三篇技術論文。所以回頭看，只能算是揭開了大資料時代的帷幕。隨著 Hadoop 的誕生，大資料進入了高速發展的時代，大資料的紅利及商業價值也不斷被釋放。現今大資料儲存和處理需求越來越多樣化，在後 Hadoop 時代，如何構建一個統一的資料湖儲存，並在其上進行多種形式的資料分析，成了企業構建大資料生態的一個重要方向。怎樣快速、一致、原子性地在資料湖儲存上構建起 Data Pipeline，成了亟待解決的問題。並且伴隨雲原生時代到來，雲原生天生具有的自動化部署和交付能力也正催化這一過程。本文就主要介紹如何利用 Iceberg 與 Kubernetes 打造新一代雲原生資料湖。

何為 Iceberg

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

Apache Iceberg 是由 Netflix 開發開源的，其於2018年11月16日進入 Apache 孵化器，是 Netflix 公司資料倉儲基礎。Iceberg 本質上是一種專為海量分析設計的表格式標準，可為主流計算引擎如 Presto、Spark 等提供高效能的讀寫和後設資料管理能力。Iceberg 不關注底層儲存（如 HDFS）與表結構（業務定義），它為兩者之間提供了一個抽象層，將資料與後設資料組織了起來。

Iceberg 主要特性包括：

ACID：具備 ACID 能力，支援 row level update/delete；支援 serializable isolation 與 multiple concurrent writers
Table Evolution：支援 inplace table evolution（schema & partition），可像 SQL 一樣操作 table schema；支援 hidden partitioning，使用者無需顯示指定
介面通用化：為上層資料處理引擎提供豐富的表操作介面；遮蔽底層資料儲存格式差異，提供對 Parquet、ORC 和 Avro 格式支援

依賴以上特性，Iceberg 可幫助使用者低成本的實現 T+0 級資料湖。

Iceberg on Kubernetes

傳統方式下，使用者在部署和運維大資料平臺時通常採用手動或半自動化方式，這往往消耗大量人力，穩定性也無法保證。Kubernetes 的出現，革新了這一過程。Kubernetes 提供了應用部署和運維標準化能力，使用者業務在實施 Kubernetes 化改造後，可執行在其他所有標準 Kubernetes 叢集中。在大資料領域，這種能力可幫助使用者快速部署和交付大資料平臺（大資料元件部署尤為複雜）。尤其在大資料計算儲存分離的架構中，Kubernetes 叢集提供的 Serverless 能力，可幫助使用者即拿即用的執行計算任務。並且再配合離線上混部方案，除了可做到資源統一管控降低複雜度和風險外，叢集利用率也會進一步提升，大幅降低成本。

我們可基於 Kubernetes 構建 Hadoop 大資料平臺：

在近幾年大熱的資料湖領域，通過傳統 Hadoop 生態構建實時資料湖，受制於元件定位與設計，較為複雜與困難。Iceberg 的出現使得依賴開源技術快速構建實時資料湖成為可能，這也是大資料未來發展方向 - 實時分析、倉湖一體與雲原生。引入 Iceberg 後，整體架構變為：

Kubernetes 負責應用自動化部署與資源管理排程，為上層遮蔽了底層環境複雜性。Iceberg + Hive MetaStore + HDFS 實現了基於 Hadoop 生態的實時資料湖，為大資料應用提供資料訪問及儲存。Spark、Flink 等計算引擎以 native 的方式執行在 Kubernetes 叢集中，資源即拿即用。與線上業務混部後，更能大幅提升叢集資源利用率。

如何構建雲原生實時資料湖

架構圖

資源層：Kubernetes 提供資源管控能力
資料層：Iceberg 提供 ACID、table 等資料集訪問操作能力
儲存層：HDFS 提供資料儲存能力，Hive MetaStore 管理 Iceberg 表後設資料，Postgresql 作為 Hive MetaStore 儲存後端
計算層：Spark native on Kubernetes，提供流批計算能力

建立 Kubernetes 叢集

首先通過官方二進位制或自動化部署工具部署 Kubernetes 叢集，如 kubeadm，推薦使用騰訊雲建立 TKE 叢集。

推薦配置為：3 臺 S2.2XLARGE16（8核16G）例項

部署 Hadoop 叢集

可通過開源 Helm 外掛或自定義映象在 Kubernetes 上部署 Hadoop 叢集，主要部署 HDFS、Hive MetaStore 元件。在騰訊雲 TKE 中推薦使用 k8s-big-data-suite 大資料應用自動化部署 Hadoop 叢集。

k8s-big-data-suite 是我們基於生產經驗開發的大資料套件，可支援主流的大資料元件在 Kubernetes 上一鍵部署。部署之前請先按照要求做叢集初始化：

# 標識儲存節點，至少三個
$ kubectl label node xxx storage=true

部署成功後，連入 TKE 叢集檢視元件狀態：

$ kubectl  get po
NAME                                                   READY   STATUS      RESTARTS   AGE
alertmanager-tkbs-prometheus-operator-alertmanager-0   2/2     Running     0          6d23h
cert-job-kv5tm                                         0/1     Completed   0          6d23h
elasticsearch-master-0                                 1/1     Running     0          6d23h
elasticsearch-master-1                                 1/1     Running     0          6d23h
flink-operator-controller-manager-9485b8f4c-75zvb      2/2     Running     0          6d23h
kudu-master-0                                          2/2     Running     2034       6d23h
kudu-master-1                                          2/2     Running     0          6d23h
kudu-master-2                                          2/2     Running     0          6d23h
kudu-tserver-0                                         1/1     Running     0          6d23h
kudu-tserver-1                                         1/1     Running     0          6d23h
kudu-tserver-2                                         1/1     Running     0          6d23h
prometheus-tkbs-prometheus-operator-prometheus-0       3/3     Running     0          6d23h
superset-init-db-g6nz2                                 0/1     Completed   0          6d23h
thrift-jdbcodbc-server-1603699044755-exec-1            1/1     Running     0          6d23h
tkbs-admission-5559c4cddf-w7wtf                        1/1     Running     0          6d23h
tkbs-admission-init-x8sqd                              0/1     Completed   0          6d23h
tkbs-airflow-scheduler-5d44f5bf66-5hd8k                1/1     Running     2          6d23h
tkbs-airflow-web-84579bc4cd-6dftv                      1/1     Running     2          6d23h
tkbs-client-844559f5d7-r86rb                           1/1     Running     6          6d23h
tkbs-controllers-6b9b95d768-vr7t5                      1/1     Running     0          6d23h
tkbs-cp-kafka-0                                        3/3     Running     2          6d23h
tkbs-cp-kafka-1                                        3/3     Running     2          6d23h
tkbs-cp-kafka-2                                        3/3     Running     2          6d23h
tkbs-cp-kafka-connect-657bdff584-g9f2r                 2/2     Running     2          6d23h
tkbs-cp-schema-registry-84cd7cbdbc-d28jk               2/2     Running     4          6d23h
tkbs-grafana-68586d8f97-zbc2m                          2/2     Running     0          6d23h
tkbs-hadoop-hdfs-dn-6jng4                              2/2     Running     0          6d23h
tkbs-hadoop-hdfs-dn-rn8z9                              2/2     Running     0          6d23h
tkbs-hadoop-hdfs-dn-t68zq                              2/2     Running     0          6d23h
tkbs-hadoop-hdfs-jn-0                                  2/2     Running     0          6d23h
tkbs-hadoop-hdfs-jn-1                                  2/2     Running     0          6d23h
tkbs-hadoop-hdfs-jn-2                                  2/2     Running     0          6d23h
tkbs-hadoop-hdfs-nn-0                                  2/2     Running     5          6d23h
tkbs-hadoop-hdfs-nn-1                                  2/2     Running     0          6d23h
tkbs-hbase-master-0                                    1/1     Running     3          6d23h
tkbs-hbase-master-1                                    1/1     Running     0          6d23h
tkbs-hbase-rs-0                                        1/1     Running     3          6d23h
tkbs-hbase-rs-1                                        1/1     Running     0          6d23h
tkbs-hbase-rs-2                                        1/1     Running     0          6d23h
tkbs-hive-metastore-0                                  2/2     Running     0          6d23h
tkbs-hive-metastore-1                                  2/2     Running     0          6d23h
tkbs-hive-server-8649cb7446-jq426                      2/2     Running     1          6d23h
tkbs-impala-catalogd-6f46fd97c6-b6j7b                  1/1     Running     0          6d23h
tkbs-impala-coord-exec-0                               1/1     Running     7          6d23h
tkbs-impala-coord-exec-1                               1/1     Running     7          6d23h
tkbs-impala-coord-exec-2                               1/1     Running     7          6d23h
tkbs-impala-shell-844796695-fgsjt                      1/1     Running     0          6d23h
tkbs-impala-statestored-798d44765f-ffp82               1/1     Running     0          6d23h
tkbs-kibana-7994978d8f-5fbcx                           1/1     Running     0          6d23h
tkbs-kube-state-metrics-57ff4b79cb-lmsxp               1/1     Running     0          6d23h
tkbs-loki-0                                            1/1     Running     0          6d23h
tkbs-mist-d88b8bc67-s8pxx                              1/1     Running     0          6d23h
tkbs-nginx-ingress-controller-87b7fb9bb-mpgtj          1/1     Running     0          6d23h
tkbs-nginx-ingress-default-backend-6857b58896-rgc5c    1/1     Running     0          6d23h
tkbs-nginx-proxy-64964c4c79-7xqx6                      1/1     Running     6          6d23h
tkbs-postgresql-5b9ddc464c-xc5nn                       1/1     Running     1          6d23h
tkbs-postgresql-ha-pgpool-5cbf85d847-v5dsr             1/1     Running     1          6d23h
tkbs-postgresql-ha-postgresql-0                        2/2     Running     0          6d23h
tkbs-postgresql-ha-postgresql-1                        2/2     Running     0          6d23h
tkbs-prometheus-node-exporter-bdp9v                    1/1     Running     0          6d23h
tkbs-prometheus-node-exporter-cdrqr                    1/1     Running     0          6d23h
tkbs-prometheus-node-exporter-cv767                    1/1     Running     0          6d23h
tkbs-prometheus-node-exporter-l82wp                    1/1     Running     0          6d23h
tkbs-prometheus-node-exporter-nb4pk                    1/1     Running     0          6d23h
tkbs-prometheus-operator-operator-f74dd4f6f-lnscv      2/2     Running     0          6d23h
tkbs-promtail-d6r9r                                    1/1     Running     0          6d23h
tkbs-promtail-gd5nz                                    1/1     Running     0          6d23h
tkbs-promtail-l9kjw                                    1/1     Running     0          6d23h
tkbs-promtail-llwvh                                    1/1     Running     0          6d23h
tkbs-promtail-prgt9                                    1/1     Running     0          6d23h
tkbs-scheduler-74f5777c5d-hr88l                        1/1     Running     0          6d23h
tkbs-spark-history-7d78cf8b56-82xg7                    1/1     Running     4          6d23h
tkbs-spark-thirftserver-5757f9588d-gdnzz               1/1     Running     4          6d23h
tkbs-sparkoperator-f9fc5b8bf-8s4m2                     1/1     Running     0          6d23h
tkbs-sparkoperator-f9fc5b8bf-m9pjk                     1/1     Running     0          6d23h
tkbs-sparkoperator-webhook-init-m6fn5                  0/1     Completed   0          6d23h
tkbs-superset-54d587c867-b99kw                         1/1     Running     0          6d23h
tkbs-zeppelin-controller-65c454cfb9-m4snp              1/1     Running     0          6d23h
tkbs-zookeeper-0                                       3/3     Running     0          6d23h
tkbs-zookeeper-1                                       3/3     Running     0          6d23h
tkbs-zookeeper-2                                       3/3     Running     0          6d23h

注意

當前 TKE k8s-big-data-suite 1.0.3 在初始化 Postgresql 時，缺少對 Hive transaction 的支援，從而導致 Iceberg 表建立失敗。請先執行以下命令手動修復：

$ kubectl  get pod | grep postgresql
tkbs-postgresql-5b9ddc464c-xc5nn                       1/1     Running            1          7d18h
$ kubectl exec tkbs-postgresql-5b9ddc464c-xc5nn -- psql -c "UPDATE pg_database SET datallowconn = 'false' WHERE datname = 'metastore';SELECT pg_terminate_backend(pid) FROM pg_stat_activity WHERE datname = 'metastore'"; kubectl exec tkbs-postgresql-5b9ddc464c-xc5nn -- psql -c "drop database metastore"; kubectl exec tkbs-postgresql-5b9ddc464c-xc5nn -- psql -c "create database metastore"
$ kubectl get pod | grep client
tkbs-client-844559f5d7-r86rb                           1/1     Running     7          7d18h
$ kubectl exec tkbs-client-844559f5d7-r86rb -- schematool -dbType postgres -initSchema

整合 Iceberg

當前 Iceberg 對 Spark 3.0 有較好支援，對比 Spark 2.4 有以下優勢：

所以我們預設採用 Spark 3.0 作為計算引擎。Spark 整合 Iceberg，首先需引入 Iceberg jar 依賴。使用者可在提交任務階段手動指定，或將 jar 包直接引入 Spark 安裝目錄。為了便於使用，我們選擇後者。筆者已打包 Spark 3.0.1 的映象，供使用者測試使用：ccr.ccs.tencentyun.com/timxbxu/spark:v3.0.1。

我們使用 Hive MetaStore 管理 Iceberg 表資訊，通過 Spark Catalog 訪問和使用 Iceberg 表。在 Spark 中做如下配置：

spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.hive_prod.type = hive
spark.sql.catalog.hive_prod.uri = thrift://metastore-host:port

若使用 TKE k8s-big-data-suite 套件部署 Hadoop 叢集，可通過 Hive Service 訪問 Hive MetaStore：

$ kubectl  get svc | grep hive-metastore
tkbs-hive-metastore                                 ClusterIP      172.22.255.104   <none>           9083/TCP,8008/TCP                                             6d23h

Spark 配置變更為：

spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.hive_prod.type = hive
spark.sql.catalog.hive_prod.uri = thrift://tkbs-hive-metastore

建立和使用 Iceberg 表

執行 spark-sql 進行驗證：

$ spark-sql --master k8s://{k8s-apiserver} --conf spark.kubernetes.container.image=ccr.ccs.tencentyun.com/timxbxu/spark:v3.0.1 --conf spark.sql.catalog.hive_prod=org.apache.iceberg.spaparkCatalog --conf spark.sql.catalog.hive_prod.type=hive --conf spark.sql.catalog.hive_prod.uri=thrift://tkbs-hive-metastore --conf spark.sql.warehouse.dir=hdfs://tkbs-hadoop-hdfs-nn/iceberg

各引數含義如下：

--master k8s://{k8s-apiserver}：Kubernetes 叢集地址
--conf spark.kubernetes.container.image=ccr.ccs.tencentyun.com/timxbxu/spark:v3.0.1：Spark Iceberg 映象
--conf spark.sql.catalog.hive_prod.type=hive：Spark Catalog 型別
--conf spark.sql.catalog.hive_prod.uri=thrift://tkbs-hive-metastore：Hive MetaStore 地址
--conf spark.sql.warehouse.dir=hdfs://tkbs-hadoop-hdfs-nn/iceberg：Spark 資料地址

建立 Iceberg 表：

spark-sql> CREATE TABLE hive_prod.db.table (id bigint, data string) USING iceberg;

檢視是否建立成功：

spark-sql> desc hive_prod.db.table;
20/11/02 20:43:43 INFO BaseMetastoreTableOperations: Refreshing table metadata from new version: hdfs://10.0.1.129/iceberg/db.db/table/metadata/00000-1306e87a-16cb-4a6b-8ca0-0e1846cf1837.metadata.json
20/11/02 20:43:43 INFO CodeGenerator: Code generated in 21.35536 ms
20/11/02 20:43:43 INFO CodeGenerator: Code generated in 13.058698 ms
id    bigint
data    string
# Partitioning
Not partitioned
Time taken: 0.537 seconds, Fetched 5 row(s)
20/11/02 20:43:43 INFO SparkSQLCLIDriver: Time taken: 0.537 seconds, Fetched 5 row(s)

檢視 HDFS 是否存在表資訊：

$ hdfs dfs -ls /iceberg/db.db
Found 5 items
drwxr-xr-x   - root supergroup          0 2020-11-02 16:37 /iceberg/db.db/table

檢視 Postgresql 是否存在表後設資料資訊：

$ kubectl get pod | grep postgresql
tkbs-postgresql-5b9ddc464c-xc5nn                       1/1     Running     1          7d19h$ kubectl exec tkbs-postgresql-5b9ddc464c-xc5nn -- psql -d metastore -c 'select * from "TBLS"'

向 Iceberg 表插入資料：

spark-sql> INSERT INTO hive_prod.db.table VALUES (1, 'a'), (2, 'b');

檢視是否插入成功：

spark-sql> select * from hive_prod.db.table;
...
1    a
2    b
Time taken: 0.854 seconds, Fetched 2 row(s)
20/11/02 20:49:43 INFO SparkSQLCLIDriver: Time taken: 0.854 seconds, Fetched 2 row(s)

檢視 Kubernetes 叢集 Spark 任務執行狀態：

$ kubectl get pod | grep spark
sparksql10-0-1-64-ed8e6f758900de0c-exec-1              1/1     Running            0          86s
sparksql10-0-1-64-ed8e6f758900de0c-exec-2              1/1     Running            0          85s

Iceberg Spark 支援的更多操作可見：https://iceberg.apache.org/spark/

通過以上步驟，我們即可在 Kubernetes 上快速部署生產可用的實時資料湖平臺。

總結

在這個資料量爆炸的時代，傳統數倉已較難很好滿足資料多樣性需求。資料湖憑藉開放、低成本等優勢，逐漸居於主導地位。並且使用者和業務也不再滿足於滯後的分析結果，對資料實時性提成了更多要求。以 Iceberg、Hudi、Delta Lake 為代表的開源資料湖技術，填補了這部分市場空白，為使用者提供了快速搭建適用於實時 OLAP 的資料湖平臺能力。另外雲原生時代的到來，更是大大加速了這一過程。大資料毋庸置疑正朝著實時分析、計算儲存分離、雲原生，乃至於湖倉一體的方向發展。大資料基礎設施也正因為 Kubernetes、容器等雲原生技術的引入，正發生巨大變革。未來大資料會更好的“長於雲上”，Bigdata as a Service 的時代，相信很快會到來。

參考材料

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊，掃碼關注同名公眾號，及時獲取更多幹貨！！

使用iceberg-使用Iceberg資料湖需要注意的點
2024-04-22
如何用好雲原生資料湖？
2020-10-27
Presto+Alluxio 加速 Iceberg 資料湖訪問
2023-02-24
RESTUX
資料湖表格式比較（Iceberg、Hudi 和 Delta Lake）
2022-06-14
資料湖倉比較：Apache Hudi、Delta Lake、Apache Iceberg
2022-08-22
Apache
常見的三大資料湖技術 - Delta、Hudi、Iceberg
2023-02-23
大資料
資料湖選型指南｜Hudi vs Iceberg 資料更新能力深度對比
2023-03-17
資料湖Iceberg技術在小米的落地與場景應用
2022-11-24
袋鼠雲資料湖平臺「DataLake」，儲存全量資料，打造數字底座
2022-11-25
K8ssandra——專為Kubernetes雲原生資料而生
2020-11-29
K8S
danthelion/trino-minio-iceberg-example：使用Minio、Trino、iceberg搭建資料工程演示案例
2022-07-19
Flink CDC 系列 - 同步 MySQL 分庫分表，構建 Iceberg 實時資料湖
2021-12-28
MySql
阿里云云原生資料湖體系全解讀——資料湖開發治理平臺 DataWorks
2020-09-30
阿里
阿里云云原生資料湖分析DLA重磅釋出-資料湖管理，助力企業一站式管理OSS資料湖儲存資料
2020-08-31
阿里
基於雲原生架構的新一代資料倉儲平臺
2024-02-01
架構
新一代雲原生資料庫關鍵技術解析與最佳實踐
2022-12-31
資料庫
Apache Hudi：雲資料湖解決方案
2020-06-21
Apache
艾瑞諮詢：中國雲原生資料湖應用洞察白皮書（附下載）
2022-05-20
資料湖+資料倉儲 = 資料湖庫架構
2022-01-13
架構
資料湖
2024-03-18
一文讀懂：本地資料湖丨資料倉儲丨雲資料湖的利與弊
2022-06-02
直播 | 新一代極速雲原生湖倉的技術核心，StarRocks PMC 今天下午為你揭秘！
2022-12-14
騰訊雲劉迪新一代雲原生資料庫關鍵技術解析與最佳實踐
2022-12-29
資料庫
湖倉一體，Hologres加速雲資料湖DLF技術原理解析
2022-04-20
GBASE雲資料倉儲透過信通院雲原生湖倉一體基礎能力專項測評
2023-01-30
kubernetes實踐之五十六：雲原生
2018-06-11
【解構雲原生】初識Kubernetes Service
2020-05-26
星環雲原生資料湖，為企業精準決策提供全方位技術支撐
2021-12-17
B站基於Iceberg的湖倉一體架構實踐
2023-01-09
架構
資料湖中加熱資料？
2022-02-13
使用 KubeSphere 和極狐GitLab 打造雲原生持續交付系統
2022-06-01
Gitlab
雲原生週刊：Kubernetes Grafana 看板更新｜ 2024.5.13
2024-05-13
Grafana
雲原生週刊：Kubernetes 十週年｜ 2024.6.11
2024-06-11
[雲原生]Kubernetes - 叢集搭建（第2章）
2021-12-31
Iceberg 資料治理及查詢加速實踐
2023-02-25
阿里雲：已有10000家企業在雲上構建資料湖
2022-04-06
阿里
【大資料雲原生系列】大資料系統雲原生漸進式演進最佳實踐
2020-09-27
大資料
資料湖--架構師如何助力“湖加速”？
2020-09-28
架構