資料同步Datax與Datax_web的部署以及使用說明

北京流浪兒發表於2021-07-01

原文網址 : https://www.cnblogs.com/gide/p/14958154.html

Web

一、DataX3.0概述

DataX 是一個異構資料來源離線同步工具，致力於實現包括關係型資料庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構資料來源之間穩定高效的資料同步功能。

請看下圖：

設計理念：

為了解決異構資料來源同步問題，DataX將複雜的網狀的同步鏈路變成了星型資料鏈路，DataX作為中間傳輸載體負責連線各種資料來源。當需要接入一個新的資料來源的時候，只需要將此資料來源對接到DataX，便能跟已有的資料來源做到無縫資料同步。

當前使用狀況：

DataX在阿里巴巴集團內被廣泛使用，承擔了所有大資料的離線同步業務，並已持續穩定執行了6年之久。目前每天完成同步8w多道作業，每日傳輸資料量超過300TB。

二、DataX3.0框架設計

DataX本身作為離線資料同步框架，採用Framework + plugin架構構建。將資料來源讀取和寫入抽象成為Reader/Writer外掛，納入到整個同步框架中。

1、Reader：Reader為資料採集模組，負責採集資料來源的資料，將資料傳送給Framework。

2、Writer： Writer為資料寫入模組，負責不斷向Framework取資料，並將資料寫入到目的端。

3、Framework：Framework用於連線reader和writer，作為兩者的資料傳輸通道，並處理緩衝，流控，併發，資料轉換等核心技術問題。

三、外掛體系

DataX目前已經有了比較全面的外掛體系，主流的RDBMS資料庫、NOSQL、大資料計算系統都已經接入。

DataX目前支援資料如下：

四、DataX3.0核心架構

DataX 3.0 開源版本支援單機多執行緒模式完成同步作業執行，按一個DataX作業生命週期的時序圖，從整體架構設計非常簡要說明DataX各個模組相互關係。

1、DataX完成單個資料同步的作業，我們稱之為Job，DataX接受到一個Job之後，將啟動一個程式來完成整個作業同步過程。

DataX Job模組是單個作業的中樞管理節點，承擔了資料清理、子任務切分(將單一作業計算轉化為多個子Task)、TaskGroup管理等功能。

2、DataXJob啟動後，會根據不同的源端切分策略，將Job切分成多個小的Task(子任務)，以便於併發執行。Task便是DataX作業的最小單元，每一個Task都會負責一部分資料的同步工作。

3、切分多個Task之後，DataX Job會呼叫Scheduler模組，根據配置的併發資料量，將拆分成的Task重新組合，組裝成TaskGroup(任務組)。每一個TaskGroup負責以一定的併發執行完畢分配好的所有Task，預設單個任務組的併發數量為5。

4、每一個Task都由TaskGroup負責啟動，Task啟動後，會固定啟動Reader—>Channel—>Writer的執行緒來完成任務同步工作。

5、DataX作業執行起來之後， Job監控並等待多個TaskGroup模組任務完成，等待所有TaskGroup任務完成後Job成功退出。否則，異常退出，程式退出值非0。

五、DataX排程流程：

使用者提交了一個DataX作業，並且配置了20個併發，目的是將一個100張分表的mysql資料同步到odbs裡面。 DataX的排程決策思路是：

1、DataXJob根據分庫分表切分成了100個Task。

2、根據20個併發，DataX計算共需要分配4個TaskGroup。

3、4個TaskGroup平分切分好的100個Task，每一個TaskGroup負責以5個併發共計執行25個Task。

六、Datax3.0安裝部署

1、環境準備

Linux
jdk 1.8
python 2.7.5（datax是由python2開發的）

2、datax下載地址

https://github.com/alibaba/DataX?spm=a2c4e.11153940.blogcont59373.11.7a684c4fvubOe1

檢視安裝成功：在bin目錄下執行 python datax.py ../job/job.json

3、檢視配置檔案

在bin目錄下已經給出了樣例配置，但不同的資料來源配置檔案不一樣。通過命令檢視配置模板
# python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
示例：[xxx@xxxbin]$ python datax.py -r mysqlreader -w hdfswriter

七、json配置檔案模板說明

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "querySql": "", #自定義sql,支援多表關聯，當使用者配置querySql時，直接忽略table、column、where條件的配置。
                        "fetchSize": ""， #預設1024，該配置項定義了外掛和資料庫伺服器端每次批量資料獲取條數，該值決定了DataX和伺服器端的網路互動次數，能夠較大的提升資料抽取效能，注意，該值過大(>2048)可能造成DataX程式OOM
                        "splitPk": "db_id", #僅支援整形型資料切分；如果指定splitPk，表示使用者希望使用splitPk代表的欄位進行資料分片，如果該值為空，代表不切分，使用單通道進行抽取
                        "column": [], #"*"預設所有列,支援列裁剪，列換序
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:mysql://IP:3306/database?useUnicode=true&characterEncoding=utf8"], 
                                "table": [] #支援多張表同時抽取
                            }
                        ],
                        "password": "",
                        "username": "",
                        "where": "" #指定的column、table、where條件拼接SQL，可以指定limit 10，也可以增量資料同步，如果該值為空，代表同步全表所有的資訊
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [], #必須指定欄位名，欄位型別，{"name"："","tpye":""}
                        "compress": "", #hdfs檔案壓縮型別，預設不填寫意味著沒有壓縮。其中：text型別檔案支援壓縮型別有gzip、bzip2;orc型別檔案支援的壓縮型別有NONE、SNAPPY（需要使用者安裝SnappyCodec）。 
                        "defaultFS": "", #Hadoop hdfs檔案系統namenode節點地址。
                        "fieldDelimiter": "", #需要使用者保證與建立的Hive表的欄位分隔符一致
                        "fileName": "", #HdfsWriter寫入時的檔名,需要指定表中所有欄位名和欄位型別，其中：name指定欄位名，type指定欄位型別。 
                        "fileType": "", #目前只支援使用者配置為”text”或”orc”
                        "path": "", #儲存到Hadoop hdfs檔案系統的路徑資訊,hive表在hdfs上的儲存路徑
                        "hadoopConfig": {} #hadoopConfig裡可以配置與Hadoop相關的一些高階引數，比如HA的配置。 
                        "writeMode": "" #append，寫入前不做任何處理，檔名不衝突;nonConflict，如果目錄下有fileName字首的檔案，直接報錯。 
                    }
                }
            }
        ],
        "setting": {
            "speed": { #流量控制
                "byte": 1048576, #控制傳輸速度，單位為byte/s，DataX執行會盡可能達到該速度但是不超過它
                "channel": ""  #控制同步時的併發數
                    }
            "errorLimit": { #髒資料控制
                "record": 0 #對髒資料最大記錄數閾值（record值）或者髒資料佔比閾值（percentage值，當數量或百分比，DataX Job報錯退出
            }
        }
    }
}

{
    "job":{
        "setting":{
            "speed":{
            	"channel":1
            }
        },
        "content":[
            {
                "reader":{
                    "name":"sqlserverreader",
                    "parameter":{
                        "username":"xxxx",
                        "password":"xxxx",
                        "column":[
                        	"UserGroupId",
                        	"Name"
                        ],
                        "connection":[
                            {
                                "table": [
                                    "UserGroups"
                                ],
                                "jdbcUrl":[
                                    "jdbc:sqlserver://xxxx:1433;DatabaseName=TEST"
                                ]
                            }
                        ]
                    }
                },
                "writer":{
                    "name":"mysqlwriter",
                    "parameter":{
                    	"username":"xxxx",
                    	"password":"xxxx",
                    	"column":[
                        	"user_group_id",
                        	"user_group_name"
                        ],
                    	"connection":[
                            {
                                "jdbcUrl": "jdbc:mysql://xxxx:3306/test_recruit", 
                                "table": ["gcp_user_groups"]
                            }
                        ],
                        "visible":false,
                        "encoding":"UTF-8"
                    }
                }
            }
        ]
    }
}

八、datax-web安裝

1、參考官方的安裝，包可以這裡下載

https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md

2、在選定的安裝目錄，解壓安裝包

tar -zxvf datax-web-{VERSION}.tar.gz

3、執行安裝指令碼(需要安裝資料庫mysql)

[root@roobbin datax-web-2.1.2]# ./bin/install.sh 
2020-10-17 10:00:09.430 [INFO] (22745) Creating directory: [/usr/local/datax-web-2.1.2/bin/../modules].
2020-10-17 10:00:09.459 [INFO] (22745)  ####### Start To Uncompress Packages ######
2020-10-17 10:00:09.462 [INFO] (22745) Uncompressing....
Do you want to decompress this package: [datax-admin_2.1.2_1.tar.gz]? (Y/N)y
2020-10-17 10:00:17.298 [INFO] (22745)  Uncompress package: [datax-admin_2.1.2_1.tar.gz] to modules directory
Do you want to decompress this package: [datax-executor_2.1.2_1.tar.gz]? (Y/N)

按照提示輸入資料庫地址，埠號，使用者名稱，密碼以及資料庫名稱，大部分情況下即可快速完成初始化。如果服務上並沒有安裝mysql命令，則可以取用目錄下/bin/db/datax-web.sql指令碼去手動執行，完成後修改相關配置檔案

vi ./modules/datax-admin/conf/bootstrap.properties
#Database
#DB_HOST=
#DB_PORT=
#DB_USERNAME=
#DB_PASSWORD=
#DB_DATABASE=

在專案目錄下/modules/datax-execute/bin/env.properties 指定PYTHON_PATH的路徑
vi ./modules/{module_name}/bin/env.properties

### 執行datax的python指令碼地址
PYTHON_PATH=

### 保持和datax-admin服務的埠一致；預設是9527，如果沒改datax-admin的埠，可以忽略
DATAX_ADMIN_PORT=

4、啟動DataX_web

./bin/start-all.sh

進入視覺化介面

http://ip:9527/index.html

登陸使用者名稱admin 密碼123456

資料同步Datax與Datax_web的部署以及使用說明

over!

基於DataX的資料同步（上）-DataX介紹以及安裝
2021-12-28
基於DataX的資料同步（下）-應用DataX進行資料同步
2021-12-30
異構資料來源同步之資料同步 → DataX 使用細節
2024-06-04
資料同步工具Sqoop和DataX
2021-02-06
OOP
微前端說明以及使用
2022-02-08
前端
異源資料同步 → 如何獲取 DataX 已同步資料量？
2024-11-04
DataX將MySql資料庫資料同步到Oracle資料庫
2024-05-16
MySql資料庫Oracle
異構資料來源同步之資料同步 → datax 改造，有點意思
2024-05-20
DataX將Oracle資料庫資料同步到達夢資料庫
2024-05-17
Oracle資料庫
阿里的又一款資料高效同步工具DataX，真香！
2023-01-29
阿里
TDengine可通過資料同步工具 DataX讀寫
2022-06-24
資料泵的TRANSFORM引數說明及使用
2021-06-11
ORM
異源資料同步 → DataX 同步啟動後如何手動終止？
2024-11-05
Nginx部署前後端分離服務以及配置說明
2018-05-23
Nginx後端
使用DataX同步MaxCompute資料到TableStore（原OTS）最佳化指南
2019-05-14
[資料整合/資料同步] 基於資料庫增量日誌的資料同步方案 : Flink CDC/Debezium/DataX/Canal/Oracle Goldengate/Kettle/Sqoop
2024-10-16
資料庫OracleGoOOP
異構資料來源資料同步 → 從原始碼分析 DataX 敏感資訊的加解密
2024-07-15
原始碼解密
資料分頁說明
2018-08-06
Kustomize 設計理念與使用說明
2024-11-29
oradebug的使用說明
2018-11-05
Prometheus和node exporter的安裝與監控資料說明
2022-07-15
PrometheusExport
使用說明
2024-10-03
DataX - [02] 安裝部署
2024-07-31
Hadoop的叢集環境部署說明
2018-10-12
Hadoop
openssh版本更新與說明 openssl版本更新與說明
2024-08-20
雙機熱備與資料備份的關係說明一二
2022-11-24
比Sqoop功能更加強大開源資料同步工具DataX實戰
2022-12-23
OOP
datax開啟hana支援以及dolphinscheduler開啟datax任務
2022-07-10
大資料技術 - DataX
2023-01-06
大資料
FreeSql 使用說明
2024-05-27
SQL
postman 使用說明
2019-09-30
Postman
QLExpress使用說明
2019-10-11
Express
WebApiClientCore使用說明
2020-05-22
WebAPIclient
Jupiter 使用說明
2018-03-04
certbot 使用說明
2024-09-01
cmake使用說明
2024-10-29
ApplicationContextAware使用說明
2021-09-09
APPContext
IDEA Maven Helper 外掛的安裝與使用說明
2020-12-01
IdeaMaven

資料同步Datax與Datax_web的部署以及使用說明

相關文章