如何使用Data Lake Analytics建立分割槽表

阿里云云棲社群發表於2019-03-29

前言

Data Lake Analytics (後文簡稱DLA)提供了無服務化的大資料分析服務,幫助使用者通過標準的SQL語句直接對儲存在OSS、TableStore上的資料進行查詢分析。

在關係型資料庫中,使用者可以對大資料量的表進行分割槽,提高查詢的效能。同樣在DLA中,使用者可以使用分割槽表將資料進行細化,達到縮短查詢響應時間的目的。

本文將以OSS資料來源為例,詳細介紹如何在DLA中建立和使用分割槽表。

建立分割槽表

在DLA中,建立一張分割槽表需要在建表語句中指定 PARTITIONED BY, 例如
建立一張名為tbl3_part的分割槽表,該表有兩個分割槽列,分別為p和q。

CREATE EXTERNAL TABLE tbl3_part 
(foo int, bar string)
PARTITIONED BY (p string, q string)
STORED AS TEXTFILE
LOCATION 'oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/';
複製程式碼

分割槽表在OSS上的目錄結構

DLA可以將儲存在OSS上的目錄或檔案對映成一張表。表中的資料就是OSS中的檔案內容。

對於分割槽表來說,分割槽列對應OSS上的目錄,而且是有特殊命名規則的目錄:

  1. 分割槽列對應表的LOCATION下的一個子目錄,目錄的命名規則為 分割槽列名=分割槽值
  2. 如果有多個分割槽列,則需要按照建表語句中指定的分割槽列的順序依次巢狀

對於上面例子中的建表語句,OSS上的目錄結構為:

$osscmd ls oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3
prefix list is:
object list is:
2018-08-08 14:23:17 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/p=3/q=3/kv1.txt
2018-08-08 18:01:08 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/p=30/q=30/kv1.txt
複製程式碼

使用MSCK命令更新分割槽資訊

建表成功後,需要執行 MSCK REPAIR TABLE 命令,將分割槽資訊同步到DLA中。

MSCK REPAIR TABLE tbl3_part;
複製程式碼

執行MSCK成功後,通過 SHOW PARTITIONS 語句可以看到表中所有的分割槽資訊。

mysql> show partitions tbl3_part;
+-----------+
| Result    |
+-----------+
| p=3/q=3   |
| p=30/q=30 |
+-----------+
複製程式碼

MSCK只能識別符合DLA分割槽列命名規則的目錄,即分割槽列的目錄名為 分割槽列名=分割槽列值。
因此,當OSS上的分割槽目錄發上變化時,執行MSCK命令,DLA可以根據OSS中當前分割槽值資訊自動同步。

使用ALTER命令新增/刪除分割槽

對於已經存在的但是不滿足DLA分割槽列命名規則的目錄,使用者可以通過 ALTER命令更新表的分割槽資訊。

新增分割槽

語法:

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];

partition_spec:
  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)
複製程式碼

可以一次指定新增多個分割槽,分割槽之間用逗號分隔。
示例,

ALTER TABLE order_part ADD 
    PARTITION (dt='2008-08-08', status='ready') location '/path/to/ready/part080808',
    PARTITION (dt='2008-08-09', status='new') location '/path/to/new/part080809';
複製程式碼

對於上面的語句,

  1. 如果新增的分割槽已經存在,則執行失敗,報錯 "Partition already exists";
  2. 如果使用了 [IF NOT EXISTS], 當新增分割槽已存在時,執行不會報錯,新的LOCATION會覆蓋掉原有分割槽所指向的目錄;

刪除分割槽

語法:

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...];
複製程式碼

可以一次指定刪除多個分割槽,分割槽之間用逗號分隔。
示例,

ALTER TABLE order_part DROP
    PARTITION (dt='2008-08-08', status='ready');
複製程式碼

對於上面的語句,

  1. 如果刪除的分割槽不存在,執行不會報錯;
  2. 如果使用了 [IF EXISTS], 當刪除分割槽不存在時,執行不會報錯;
  3. DROP 分割槽目前只支援 "分割槽列=分割槽值" 的指定方式。不支援分割槽值是一個表示式,比如 partitionCol > 100;
  4. 如果刪除的分割槽目錄名符合 分割槽列名=分割槽列值 的命名規則,執行MSCK命令仍會將已經刪除的分割槽自動新增。

分割槽表查詢

全表查詢時,得到的是所有分割槽下的資料。

mysql> select count(*) from tbl3_part;
+-------+
| _col0 |
+-------+
|  1000 |
+-------+
複製程式碼

當執行 SELECT * 時,可以發現分割槽列將以列的形式出現在表中定義的資料列的後面。

mysql> select * from tbl3_part limit 3;
+------+---------+------+------+
| foo  | bar     | p    | q    |
+------+---------+------+------+
|  238 | val_238 | 3    | 3    |
|   86 | val_86  | 3    | 3    |
|  311 | val_311 | 3    | 3    |
+------+---------+------+------+
複製程式碼

查詢時可以使用分割槽列做filter

mysql> select count(*) from tbl3_part where p='3';
+-------+
| _col0 |
+-------+
|   500 |
+-------+
複製程式碼

注意事項

  1. OSS上分割槽列的目錄結構的巢狀順序需要與表中定義的順序一致
    比如 對於本文例子中的目錄結構,下面的建表語句是錯誤的
CREATE EXTERNAL TABLE tbl3_part 
(col1 int, col2 string)
PARTITIONED BY (q string, p string)
STORED AS TEXTFILE
LOCATION 'oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/';
複製程式碼
  1. 分割槽表只會掃描分割槽列所在目錄下的資料.
    對於下面的目錄結構
$osscmd ls oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/
prefix list is:
object list is:
2018-08-08 14:23:56 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/kv1.txt
2018-08-08 14:23:48 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/p=4/kv2.txt
2018-08-08 14:23:40 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/p=4/q=4/kv3.txt
複製程式碼

如果建表語句中指定的分割槽列為 p 和 q,則該表的資料檔案只有 kv3.txt.
資料檔案 kv1.txt 和 kv2.txt 將不會被計算在內。

  1. 如果有新增的OSS分割槽目錄,則需要手動執行 MSCK REPAIR TABLE table_name 命令或者ALTER ADD PARTITION命令使其生效,再進行查詢。



本文作者:金絡

原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章