教程：使用DataLakeAnalytics讀/寫RDS資料

xumingmingv發表於2018-08-24

原文網址 : https://flycode.co/archives/184449

Data Lake Analytics 作為雲上資料處理的樞紐，最近加入了對於RDS(目前支援 MySQL , SQLServer , Postgres 引擎)的支援, 這篇教程帶你玩轉 DLA 的 RDS 支援。我們文章中會以 MySQL 的介紹為主，最後會簡要介紹下 SQLServer 與 Postgres 的一些不同點、需要注意的地方。

建立資料庫

在 DLA 裡面建立一個底層對映到 MySQL 的外表的語法如下:

CREATE SCHEMA hello_mysql_vpc_rds WITH DBPROPERTIES (
  CATALOG = `mysql`, 
  LOCATION = `jdbc:mysql://rm-2zer0vg58mfofake.mysql.rds.aliyuncs.com:3306/dla_test`,
  USER = `dla_test`,
  PASSWORD = `the-fake-password`,
  VPC_ID = `vpc-2zeij924vxd303kwifake`,
  INSTANCE_ID = `rm-2zer0vg58mfo5fake`
);

跟普通的建表不同的是這裡多了兩個屬性: VPC_ID 和 INSTANCE_ID 。VPC_ID 是你的RDS所在VPC的ID, 如下圖所示:

而 INSTANCE_ID 則是你的RDS例項ID, 在RDS的詳情頁面可以找到:

建表需要這兩個額外資訊是因為現在使用者的資料庫都是處於使用者自己的VPC內部，預設情況下 DLA 是訪問不了使用者 VPC 裡面的資源的，為了讓DLA能夠訪問到使用者RDS裡面的資料，我們需要利用阿里雲的VPC反向訪問技術。

許可權宣告: 當您通過上述方式建庫，就視為您同意我們利用VPC反向訪問的技術去讀寫您的RDS。

另外您還需要把 100.104.0.0/16 IP地址段加入到你的RDS的白名單列表，這是我們VPC反向訪問的IP地段，如下圖:

建立表

資料庫建完之後，我們可以建表了，我們先在你的 RDS 裡面建立如下的 person 表用來做測試:

create table person (
       id int,
       name varchar(1023),
       age int
);

並且向裡面插入一下測試資料:

insert into person 
  values (1, `james`, 10), 
         (2, `bond`, 20), 
         (3, `jack`, 30), 
         (4, `lucy`, 40);

然後就可以在 DLA 的資料庫裡面建立相應的對映表了:

create external table person (
       id int,
       name varchar(1023),
       age int
) tblproperties (
  table_mapping = "person"
);

這樣我們通過MySQL客戶端連線到 DLA 資料庫上面，就可以對 MySQL 資料庫裡面的資料進行查詢了:

mysql> select * from person;
+------+-------+------+
| id   | name  | age  |
+------+-------+------+
|    1 | james |   10 |
|    2 | bond  |   20 |
|    3 | jack  |   30 |
|    4 | lucy  |   40 |
+------+-------+------+
4 rows in set (0.35 sec)

ETL: 把資料從OSS裡面清洗出來寫入RDS

其實 DLA 裡面使用 RDS 的典型場景不是把RDS的資料讀出來進行分析，因為RDS本身能承載的資料量有限，不適合大資料分析，更多的場景是在我們對儲存在OSS/OTS上的大資料進行分析，分析完成之後把結果資料回寫到 RDS 裡面供前臺業務使用。這種場景在DLA裡面非常容易實現，還是舉前面 person 表例子，下面的語句把 oss_db 裡面 customer 的十條記錄進行了一些轉換然後插入了我們的 hello_mysql_vps_rds.person 表:

mysql> insert into hello_mysql_vpc_rds.person
    -> select c_custkey, c_name, c_custkey + 20 from oss_db.customer limit 10;

+------+
| rows |
+------+
|   10 |
+------+
1 row in set (4.57 sec)

mysql> select * from person;
+------+--------------------+------+
| id   | name               | age  |
+------+--------------------+------+
|    1 | james              |   10 |
|    2 | bond               |   20 |
|    3 | jack               |   30 |
|    4 | lucy               |   40 |
|    1 | Customer#000000001 |   21 |
|    3 | Customer#000000003 |   23 |
|    5 | Customer#000000005 |   25 |
|    2 | Customer#000000002 |   22 |
|    4 | Customer#000000004 |   24 |
|    7 | Customer#000000007 |   27 |
|    6 | Customer#000000006 |   26 |
|    9 | Customer#000000009 |   29 |
|    8 | Customer#000000008 |   28 |
|   10 | Customer#000000010 |   30 |
+------+--------------------+------+
14 rows in set (0.26 sec)

SQLServer 和 PostgreSQL

SQLServer 和 PostgreSQL 總體用法上跟 MySQL 類似，但是因為 MySQL 裡面 database 跟 schema 是等價的，只有一層結構，而 SQLServer 和 PostgreSQL 面則有 database 和 schema 的兩層結構，因此在建庫和建表的時候都有點稍微不一樣:

建庫

SQLServer

CREATE SCHEMA `hello_sqlserver_vpc_rds` WITH DBPROPERTIES 
( 
  CATALOG = `sqlserver`, 
  LOCATION = `jdbc:sqlserver://rm-bp15g1r5jf90hfake.sqlserver.rds.aliyuncs.com:3433;DatabaseName=dla_test`,
  USER=`dla_test1`,
  PASSWORD=`this-is-not-a-real-password`,
  INSTANCE_ID = `rm-bp15g1r5jf90fake`,
  VPC_ID = `vpc-bp1adypqlcn535yrdfake`
);

首先 CATALOG 要指定 sqlserver 。
LOCATION 要指定資料庫的名字，指定的方式跟 MySQL 不一樣, 是通過 DatabaseName=dla_test 的方式來指定。這是 SQLServer JDBC URL 定義的，不是DLA定義的。

PostgreSQL

CREATE SCHEMA `hello_postgresql_vpc_rds` WITH DBPROPERTIES 
( 
  CATALOG = `postgresql`, 
  LOCATION = `jdbc:postgresql://rm-bp1oo49r6j3hvfake.pg.rds.aliyuncs.com:3433/dla_test`,
  USER=`dla_test`,
  PASSWORD=`this-is-not-a-real-password`,
  INSTANCE_ID = `rm-bp1oo49r6j3hfake`,
  VPC_ID = `vpc-bp1adypqlcn535yrfake`
);

這裡跟 MySQL 幾乎一樣，除了 CATALOG 要指定成 postgresql 。

建表

建表這塊的差異主要在 table_mapping 這個欄位裡面, MySQL 的 table_mapping 裡面只有表名( person ):

create external table person1 (
       id int,
       name varchar(1023),
       age int
) tblproperties(
  table_mapping = `person`
);

而 SQLServer 和 PostgreSQL 的 table_mapping 裡面則要有schema的名字和表名:

create external table person (
       id int,
       name varchar(1023),
       age int
) tblproperties(
  table_mapping = `public.person`
);

總結

Happy DLAing!

使用Data Lake Analytics讀/寫RDS資料
2019-04-12
教程：使用DataLakeAnalytics+OSS分析CSV格式的TPC-H資料集
2018-08-07
教程：如何使用DataLakeAnalytics建立分割槽表
2018-08-10
使用DataLakeAnalytics從OSS清洗資料到AnalyticDB
2018-08-08
基於DataLakeAnalytics的資料湖實踐
2018-09-03
基於 DataLakeAnalytics 的資料湖實踐
2019-03-19
.NET 5/.NET Core使用EF Core 5連線MySQL資料庫寫入/讀取資料示例教程
2021-04-28
MySql資料庫
TensorFlow讀寫資料
2019-03-16
資料讀寫流程
2024-06-15
資料讀寫壓力大，讀寫分離
2018-08-20
基於DataLakeAnalytics做跨地域的資料分析
2018-09-06
在DataLakeAnalytics中使用檢視
2019-01-16
Pandas讀寫資料庫
2024-11-05
資料庫
Django 直接使用資料庫連線和遊標讀寫資料庫
2021-12-25
Django資料庫
雲資料庫RDS是什麼？雲資料庫RDS有什麼優勢？
2021-03-29
資料庫
Flink 實踐教程-入門（6）：讀取 PG 資料寫入 ClickHouse
2021-11-14
DataLakeAnalytics中OSSLOCATION的使用說明
2018-08-07
AWS RDS Oracle資料遷移
2021-02-20
Oracle
資料庫讀寫分離
2024-03-28
資料庫
HBase資料的讀寫流程
2022-01-14
說說如何在 Spring Boot 中使用 JdbcTemplate 讀寫資料
2020-09-26
Spring BootJDBC
Flink 實踐教程 - 入門（4）：讀取 MySQL 資料寫入到 ES
2021-11-09
MySql
HDFS讀寫兩步教程
2019-06-03
io流對資料的讀寫
2018-06-29
Redis資料儲存和讀寫
2024-06-02
Redis
JuiceFS 資料讀寫流程詳解
2021-12-03
UI
Java mysql blob 資料讀寫操作
2021-07-07
JavaMySql
PG 資料庫從阿里雲pg rds 同步資料。
2022-10-11
資料庫阿里
JavaScript 讀寫二進位制資料
2018-09-08
JavaScript
Python對Hadoop資料進行讀寫
2020-11-16
PythonHadoop
天翼雲RDS資料庫如何修改資料庫引數
2022-03-23
資料庫
使用SQL-Server分割槽表功能提高資料庫的讀寫效能
2021-02-18
SQLServer資料庫
Kafka Connect如何實現同步RDS binlog資料?
2018-05-15
Kafka
大資料資料庫讀寫分離分庫分表
2021-01-01
大資料資料庫
ssm讀寫分離多資料來源
2018-09-26
SSM
MySQL 中讀寫分離資料延遲
2023-05-09
MySql
資料庫讀寫分離Master-Slave
2019-07-02
資料庫AST
大資料系列2：Hdfs的讀寫操作
2021-01-26
大資料