利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無伺服器資料倉儲（一）雲上雲下資料同步方案設計

海豚调度發表於2024-04-25

原文網址 : https://www.cnblogs.com/DolphinScheduler/p/18157437

引言

在資料驅動的世界中，企業正在尋求可靠且高效能的解決方案來管理其不斷增長的資料需求。本系列部落格從一個重視資料安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社群產品以及第三方工具構建無伺服器資料倉儲的解耦方法。

file

Apache EMR（Elastic MapReduce）Serverless 是亞馬遜雲科技推出的一種全託管的無伺服器大資料處理服務。它基於 Apache Spark 和 Apache Hive 計算引擎，提供計算和儲存分離的架構，實現架構彈性的同時，增強了效能。

Apache DolphinScheduler 是一種與 EMR 叢集解耦部署的多功能工作流排程程式，可確保高效可靠的資料編排和處理。此外，Amazon Athena 使客戶能夠使用標準 SQL 執行 Ad-hoc 查詢並分析大量資料集，從而無需複雜的基礎設施管理。透過 AWS 控制檯實現的開放的整合測試，為這些元件的無縫整合和驗證提供了可能，大大加快了工程師的工作效率。對於金融科技客戶，EMR Serverless 可以提供業務線（LOB）級別的精細資源消費分析，從而實現精確監控和成本最佳化。這一功能在金融領域尤其有價值。因為在該領域，運營敏捷性和成本效益至關重要。B2C 金融科技客戶非常重視資料安全性和合規性。為了解決這些問題，本案客戶採用了本地和雲混合架構。敏感資料儲存在本地。本部落格討論了實現本地系統和雲環境之間資料無縫同步的具體解決方案。該解決方案使客戶能夠保持對敏感資訊的嚴格控制，同時受益於雲端計算的可擴充套件性和靈活性。

本文著重探討雲上雲下資料同步方案的設計。

架構設計

金融科技客戶非常關注資料安全和合規性。對於部落格中討論的具體案例，業務資料儲存在本地 TiDB 上，而使用者行為資料透過Sensors Data套件收集，儲存在本地 HDFS 上。 TiDB 是亞馬遜雲科技全球合作伙伴。

亞馬遜雲科技上的 TiDB 產品服務資訊可以透過此連結獲取。Sensors Data 是亞馬遜雲科技大中國區的合作伙伴。亞馬遜雲科技上的 Senors Data 產品服務資訊可以透過此連結獲取。

這些本地資料來源通亞馬遜雲科技 Direct Connect 連線到亞馬遜雲科技的 Region。在亞馬遜雲科技的環境中，資料流經 Interface Endpoint for S3、亞馬遜雲科技 PrivateLink，最終訪問 S3 儲存桶（如下圖所示，儲存桶名為 ODS（示例））。介面終端節點由透過 Amazon Route53 託管的 DNS 解析器註冊和管理。

然後，資料由 Amazon EMR Serverless Job（Hive 作業或 Spark 作業）處理，以實現資料倉儲分層邏輯。不同的分層資料儲存在單獨的 S3 儲存桶中或同一 S3 儲存桶下的比不同的 S3 字首中。這些資料的架構透過 Glue 資料目錄進行管理，並且可以透過 Amazon Athena 控制檯進行查詢。

第三方 BI 工具透過 JDBC 與 Amazon Athena 進一步整合，實現資料視覺化和生成資料包告，滿足不同的業務需求，包括監管要求。

EMR Serveless Job 透過在 3 個 EC2 例項上以叢集模式部署的 Apache DolphinScheduler 進行編排。

DolphinScheduler 叢集與其編排的 EMR 作業解耦部署，實現了整個系統的高可靠性：一個（EMR 作業或排程器）發生故障不會影響另一個（排程器或 EMR 作業）。

解決方案系統架構圖

雲上雲下資料同步解決方案

從網路基礎設施的角度來看，亞馬遜雲科技 Direct Connect 被用來實現客戶本地和亞馬遜雲科技區域之間的連線。在亞馬遜雲科技環境中，資料流經 Interface Endpoint for S3、亞馬遜雲科技 PrivateLink，最終訪問 S3 儲存桶（如下圖所示，儲存桶名為 ODS（示例））。介面終端節點由透過 Amazon Route53 託管的 DNS 解析器註冊和管理。有關進一步的架構、工作機制說明以及部署指南，請參閱privatelink-interface-endpoints文件。

從資料傳輸的角度，設計了軟體級雙向資料同步解決方案。包括 3 個子場景：

存量資料從本地同步到亞馬遜雲科技 Region；
增量資料從本地同步到亞馬遜雲科技 Region；
將資料從亞馬遜雲科技 Region 反向同步到本地。

對於每個場景，都有特定的要求：

資料同步解決方案應該在源是 TiDB、HDFS，目標是亞馬遜雲科技 S3 的上下文中工作；
需要資料完整性檢查機制，確保資料得到一致同步。

表 1 描述了滿足每個子場景的特定要求的具體的解決方案。

表 1：雲上雲下資料同步解決方案設計

	具體要求
		資料同步解決方案在一端是 TiDB、HDFS、另一端是亞馬遜雲科技 S3 的環境下工作	資料完整性檢查
子場景	存量資料從本地同步到亞馬遜雲科技 Region	TiDB Dumpling 將資料從 TiDB 同步到亞馬遜雲科技 S3 亞馬遜雲科技 DataSync 將資料從本地 HDFS 同步到亞馬遜雲科技 S3	自主研發的資料完整性檢查亞馬遜雲科技 DataSync 執行完整性檢查以確保寫入目標的資料與從源讀取的資料匹配
	增量資料從本地到亞馬遜雲科技區域 Region	TiDB Dumpling（帶有 ETL 邏輯）/TiDB CDC Connector 從 TiDB 到亞馬遜雲科技 S3 亞馬遜雲科技 DataSync 將資料從本地 HDFS 同步到亞馬遜雲科技 S3	自主研發的資料完整性檢查亞馬遜雲科技 DataSync 執行完整性檢查以確保寫入目標的資料與從源讀取的資料匹配
	將資料從亞馬遜雲科技區域反向同步到本地	EMR Serverless Job 將資料從 Glue Catalog 表同步到 TiDB 表	自主研發的資料完整性檢查

具體解決辦法解釋如下：

存量資料同步

利用 TiDB Dumpling 將資料從 TiDB 同步到亞馬遜雲科技 S3

如何實現本地 TiDB 資料同步到 AWS S3 ,可以參考匯出資料到亞馬遜 S3 雲端儲存指導。透過執行以下命令，儲存在 TiDB 中的資料可以轉儲為 csv 檔案並儲存在 AWS S3 儲存桶中。

./dumpling -u root -P 4000 -h 127.0.0.1 -r 200000 -o "s3://${Bucket}/${Folder}" –filetype csv

存量資料同步

利用亞馬遜雲科技 DataSync 將資料從本地 HDFS 同步到亞馬遜雲科技 S3

亞馬遜雲科技 DataSync 代理應安裝在客戶本地的伺服器上。連線到 Hadoop 叢集時，亞馬遜雲科技 DataSync 代理充當 HDFS 客戶端，與 Hadoop 叢集中的主 NameNode 通訊，然後從 DataNode 複製檔案資料。可以透過亞馬遜雲科技 DataSync獲取該操作指南，將資料從 Hadoop HDFS 同步到 Amazon S3。

增量資料同步

利用 TiDB Dumpling 和自管理的檢查點

為了透過 TiDB Dumpling 工具實現增量資料同步，需要自行管理目標同步資料的檢查點。一種推薦的方法是將最後攝取的記錄的 id 儲存到特定介質（例如 ElastiCache for Redis、DynamoDB）中，以在執行觸發 TiDB Dumpling 的 shell/python 作業時實現自我管理檢查點。

當然，實現該方案的前提是目標表有一個單調遞增的 id 欄位作為主鍵。

對匯出的資料進行過濾，可以獲取具體的 TiDB Dumpling 命令。示例命令如下所示。

./dumpling -u root -P 4000 -h 127.0.0.1 -o /tmp/test --where "id < 100"

增量資料同步

利用 TiDB CDC Connector 從 TiDB 到亞馬遜雲科技 S3

利用 TiDB CDC Connector 實現 TiDB 到亞馬遜雲科技 S3 的增量資料同步的好處是有原生的 CDC 機制，而且由於後端引擎是 Flink，所以效能很快。然而，這種方法有一個棘手的點或權衡點：需要建立相當多的 Flink 表來對映亞馬遜雲科技上的 ODS 表。

本 TiDB CDC Connector 操作指南可以透過Tidb CDC 獲取。

增量資料同步

利用 EMR Serverless Job 將資料從 Glue Catalog 表反向同步到 TiDB 表

大多數資料從客戶的本地流向亞馬遜雲科技。但是，存在這樣的場景：根據特定業務的需要，資料從亞馬遜雲科技反向流向客戶本地。

資料著落亞馬遜雲科技後，將透過使用特定表結構建立的 Athena 表透過 Glue 資料目錄進行打包/管理。表 DDL 指令碼如下所示：

CREATE EXTERNAL TABLE IF NOT EXISTS `table_name`(
  `id` string,
  ……
  `created_at` string) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
LOCATION 's3://bucket_name/prefix_name/';

在這種情況下，EMR Serverless Spark Job 可以完成將資料從亞馬遜雲科技 Glue 表反向同步到客戶本地表的工作。

如果 Spark 作業是用 Scala 編寫的，示例程式碼如下：

package com.example
import org.apache.spark.sql.{DataFrame, SparkSession}

object Main  {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()
      .appName("<app name>")
      .enableHiveSupport()
      .getOrCreate()

    spark.sql("show databases").show()
    spark.sql("use default")
    var df=spark.sql("select * from <glue table name>")

    df.write
      .format("jdbc")
      .option("driver","com.mysql.cj.jdbc.Driver")
      .option("url", "jdbc:mysql://tidbcloud_endpoint:4000/namespace")
      .option("dbtable", "table_name")
      .option("user", "use_name")
      .option("password", "password_string")
      .save()

    spark.close()
  }

}

透過 SBT 將 Scala 程式碼打包為 jar 檔案後，可以透過以下亞馬遜雲科技 Cli 命令將作業提交到 EMR Serverless 引擎：

export applicationId=00fev6mdk***

export job_role_arn=arn:aws:iam::<aws account id>:role/emr-serverless-job-role

aws emr-serverless start-job-run \
    --application-id $applicationId \
    --execution-role-arn $job_role_arn \
    --job-driver '{
        "sparkSubmit": {
            "entryPoint": "s3://spark-sql-test-nov23rd/scripts/dec13-1/scala-glue_2.13-1.0.1.jar",
            "sparkSubmitParameters": "--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory --conf spark.driver.cores=1 --conf spark.driver.memory=3g --conf spark.executor.cores=4 --conf spark.executor.memory=3g --jars s3://spark-sql-test-nov23rd/mysql-connector-j-8.2.0.jar"
        }
    }'

如果 Spark 作業是用 Pyspark 編寫的，示例程式碼如下：

import os
import sys
import pyspark.sql.functions as F
from pyspark.sql import SparkSession

if __name__ == "__main__":

    spark = SparkSession\
        .builder\
        .appName("app1")\
        .enableHiveSupport()\
        .getOrCreate()

    df=spark.sql(f"select * from {str(sys.argv[1])}")

    df.write.format("jdbc").options(
        driver="com.mysql.cj.jdbc.Driver",
        url="jdbc:mysql://tidbcloud_endpoint:4000/namespace ",
        dbtable="table_name",
        user="use_name",
        password="password_string").save()

    spark.stop()

可以透過以下亞馬遜雲科技 CLI 命令將該作業提交到 EMR Serverless 引擎：

export applicationId=00fev6mdk***

export job_role_arn=arn:aws:iam::<aws account id>:role/emr-serverless-job-role

aws emr-serverless start-job-run \
    --application-id $applicationId \
    --execution-role-arn $job_role_arn \
    --job-driver '{
        "sparkSubmit": {
            "entryPoint": "s3://spark-sql-test-nov23rd/scripts/dec13-1/testpython.py",
            "entryPointArguments": ["testspark"],
            "sparkSubmitParameters": "--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory --conf spark.driver.cores=1 --conf spark.driver.memory=3g --conf spark.executor.cores=4 --conf spark.executor.memory=3g --jars s3://spark-sql-test-nov23rd/mysql-connector-j-8.2.0.jar"
        }
    }'

上述 Pyspark 程式碼和亞馬遜雲科技 CLI 命令同時實現了外部傳參：提交作業時將表名傳輸到 SQL 語句中。

自研的資料完整性檢查

完備的資料完整性校驗透過在源庫上建立校驗庫，選擇非空唯一欄位計算校驗值和行數，在目標庫上使用與源庫相同的欄位計算校驗值和行數，比較源庫和目標庫的校驗值和行數實現。

如果校驗結果是不一致，那麼需要手動對比和調整。這種校驗方式的前提條件是源庫和目標庫都是關係型資料庫。本文中 TiDB 向亞馬遜雲科技 S3 的資料同步，目標端是物件儲存而不併是資料庫。

因此，資料完整性的檢驗上會有些 trade-off。實戰中，採用對比目標資料集的列總數和行總數，以及列名稱的方式實現。

亞馬遜雲科技 DataSync 資料完整性

DataSync 利用亞馬遜雲科技設計的與其連線的儲存協議無關的傳輸協議，在資料移動時執行實時校驗和驗證。詳細資訊可以在configure-data-verification-options獲取。除了實時校驗和驗證之外，DataSync 還支援增量傳輸、內聯壓縮。

DataSync 處理傳輸過程，因此使用者無需編寫和最佳化自己的複製指令碼，也無需部署和微調商業資料傳輸工具。內建監控可確保移動檔案和物件的資料完整性，並採用自動重試機制，以便到達目標檔案儲存的內容與原始檔案匹配。

總結

金融科技客戶非常注重資料安全和合規。為規避潛在的風險，本案例所涉及的客戶的做法是將使用者的出入金資料、使用者的基礎資料（統稱為業務資料）放在 IDC，而使用者的行為資料以及脫敏之後的業務資料放在雲馬遜雲科技平臺中。

從亞馬遜雲科技所服務的全球範圍內的 FSI 行業客戶看，越來越多的金融科技公司選擇將業務資料也存放在亞馬遜雲科技平臺上。亞馬遜雲科技為客戶提供的雲平臺及服務在安全和合規方面積累了非常豐富的認證，包括平臺整體認證、適配所在國家/地區監管法規的認證、行業認證等等；同時亞馬遜雲科技也開發了非常豐富的產品服務幫助客戶應對資料安全合規角度的各種需求。

參考資料

https://awsmarketplace.amazonaws.cn/marketplace/pp/prodview-p6ywzvwiqj7lq?sr=0-2&ref_=beagle&applicationId=AWSMPContessa
https://aws.amazon.com/marketplace/pp/prodview-7xendfnh6ykg2?sr=0-1&ref_=beagle&applicationId=AWSMPContessa
https://docs.aws.amazon.com/AmazonS3/latest/userguide/privatelink-interface-endpoints.html
https://docs.pingcap.com/tidb/stable/dumpling-overview#export-data-to-amazon-s3-cloud-storage
https://aws.amazon.com/blogs/storage/using-aws-datasync-to-move-data-from-hadoop-to-amazon-s3
https://docs.pingcap.com/tidb/stable/dumpling-overview#filter-the-exported-data
https://nightlies.apache.org/flink/flink-cdc-docs-master/docs/connectors/cdc-connectors/tidb-cdc
https://docs.aws.amazon.com/datasync/latest/userguide/configure-data-verification-options.html

系列部落格

《利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無伺服器資料倉儲（二）Apache DolphinScheduler 整合以及 LOB 粒度資源消費分析》
《利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無伺服器資料倉儲（三）EMR Serverless 操作要點、最佳化以及開放整合測試》

本文由白鯨開源提供釋出支援！

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS構建資料湖
2020-11-05
ApacheS3
使用 Amazon Step Functions 和 Amazon Athena 實現簡易大資料編排
2023-04-22
Function大資料
馬麗麗：雲資料庫發展的未來 - 無伺服器資料庫 Amazon Aurora Serverless解析
2022-12-28
資料庫伺服器Server
構建無伺服器數倉（二）Apache DolphinScheduler 整合以及 LOB 粒度資源消費分析
2024-05-11
伺服器Apache
雲資料建模：為資料倉儲設計資料庫
2022-06-30
資料庫
[數倉]資料倉儲設計方案
2019-06-11
資料倉儲架構到底選擇內部部署還是上雲？
2018-08-14
架構
構建實時資料倉儲首選，雲原生資料倉儲AnalyticDB for MySQL技術解密
2020-04-09
MySql解密
Amazon Athena在AWS中國（寧夏）區域正式上線
2020-03-24
從本地MySQL遷移到雲資料庫，為什麼是Amazon Aurora？
2018-11-13
MySql資料庫
資料倉儲上雲那些事兒
2020-09-13
TiDB資料庫PD混合部署
2019-08-15
TiDB資料庫
聽說你還在為海量資料構建不同資料倉儲？華為雲學院 DataLake瞭解一下！
2018-09-27
雲端資料倉儲的模式選型與建設
2019-08-29
模式
容器雲環境下如何設計儲存架構？
2022-11-16
架構
HashData完成1500萬美元融資加速構建雲原生資料倉儲
2020-12-09
構建無伺服器數倉（三）EMR Serverless 操作要點、最佳化以及開放整合測試
2024-05-23
伺服器Server
使用Power BI構建資料倉儲與BI方案
2021-04-27
用 AI 讓資料分析更智慧 - Amazon Q 在 Amazon Quicksight 中的應用
2024-04-09
AIUI
資料湖和中央資料倉儲的設計
2023-12-06
如何構建資料倉儲模型？
2022-09-26
模型
基於Apache Hudi在Google雲構建資料湖平臺
2022-04-07
ApacheGo
深入理解Amazon DynamoDB NoSQL雲資料庫服務AN
2022-03-21
SQL資料庫
基於Amazon ECS Fargate構建Apache Superset
2022-01-22
Apache
一文讀懂：本地資料湖丨資料倉儲丨雲資料湖的利與弊
2022-06-02
大資料和資料倉儲解決方案
2020-03-24
大資料
阿里雲：已有10000家企業在雲上構建資料湖
2022-04-06
阿里
資料倉儲架構分層設計
2020-12-09
架構
雲端計算之路-出海記：建一個免費倉庫 Amazon RDS for SQL Server
2020-11-24
SQLServer
如何使用Amazon S3儲存和檢索資料
2024-10-25
S3
GBase GCDW&阿里雲端計算巢：自動化部署雲原生資料倉儲
2023-01-30
GC阿里
雲原生無伺服器以及實時數倉降低資料分析門檻
2023-03-15
伺服器
亞馬遜雲科技推出安全資料湖Amazon Security Lake
2022-12-02
亞馬遜
Hive：資料倉儲構建步驟
2018-10-16
Hive
在 KubeSphere 中使用 Rook 構建雲原生儲存環境
2021-12-31
阿里雲“萬倉計劃”重磅釋出，助力每個企業構建屬於自己的雲原生資料倉儲
2020-07-28
阿里
AzureStack混合雲大資料解決方案
2018-05-10
REST大資料
雲上大資料儲存：探究 JuiceFS 與 HDFS 的異同
2023-04-04
大資料UI

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無伺服器資料倉儲（一）雲上雲下資料同步方案設計

引言

架構設計

雲上雲下資料同步解決方案

存量資料同步

存量資料同步

增量資料同步

增量資料同步

增量資料同步

自研的資料完整性檢查

亞馬遜雲科技 DataSync 資料完整性

總結

參考資料

系列部落格

相關文章