詳解 Flink Catalog 在 ChunJun 中的實踐之路
我們知道 Flink 有Table(表)、View(檢視)、Function(函式/運算元)、Database(資料庫)的概念,相對於這些耳熟能詳的概念,Flink 裡還有一個 Catalog(目錄) 的概念。
本文將為大家帶來 Flink Catalog 的介紹以及 Flink Catalog 在 ChunJun 中的實踐之路。
Flink Catalog 簡介
Catalog 提供後設資料,如資料庫、表、分割槽、檢視,以及訪問儲存在資料庫或其他外部系統中的資料所需的函式和資訊。
Flink Catalog 作用
資料處理中最關鍵的一個方面是管理後設資料:
· 可能是暫時性的後設資料,如臨時表,或針對表環境註冊的 UDFs;
· 或者是永/久性的後設資料,比如 Hive 元儲存中的後設資料。
Catalog 提供了一個統一的 API 來管理後設資料,並使其可以從表 API 和 SQL 查詢語句中來訪問。
Catalog 使使用者能夠引用他們資料系統中的現有後設資料,並自動將它們對映到 Flink 的相應後設資料。例如,Flink 可以將 JDBC 表自動對映到 Flink 表,使用者不必在 Flink 中手動重寫 DDL。Catalog 大大簡化了使用者現有系統開始使用 Flink 所需的步驟,並增強了使用者體驗。
Flink Catalog 的結構
● Flink Catalog 原生結構
• GenericInMemoryCatalog:基於記憶體實現的 Catalog
• Jdbc Catalog:可以將 Flink 透過 JDBC 協議連線到關聯式資料庫,目前 Flink 在1.12和1.13中有不同的實現,包括 MySql Catalog 和 Postgres Catalog
• Hive Catalog:作為原生 Flink 後設資料的持久化儲存,以及作為讀寫現有 Hive 後設資料的介面
● Flink Iceberg Catalog
● Flink Hudi Catalog
HoodieCatalog、HoodieHiveCatalog
Flink Catalog 詳解
GenericInMemoryCatalog
final CatalogManager catalogManager = CatalogManager.newBuilder() .classLoader(userClassLoader) .config(tableConfig) .defaultCatalog( settings.getBuiltInCatalogName(), new GenericInMemoryCatalog( settings.getBuiltInCatalogName(), settings.getBuiltInDatabaseName())) .build(); defaultCatalog = new GenericInMemoryCatalog( defaultCatalogName, settings.getBuiltInDatabaseName()); CatalogManager catalogManager = builder.defaultCatalog(defaultCatalogName, defaultCatalog).build();
GenericInMemoryCatalog 所有的資料都儲存在 HashMap 裡面,無法持久化。
JDBC Catalog
CREATE CATALOG my_catalog WITH( 'type' = 'jdbc', 'default-database' = '...', 'username' = '...', 'password' = '...', 'base-url' = '...' ); USE CATALOG my_catalog;
如果建立並使用 Postgres Catalog 或 MySQL Catalog,請配置 JDBC 聯結器和相應的驅動。
JDBC Catalog 支援以下引數:
• name:必填,Catalog 的名稱
• default-database:必填,預設要連線的資料庫
• username:必填,Postgres/MySQL 賬戶的使用者名稱
• password:必填,賬戶的密碼
• base-url: 必填,(不應該包含資料庫名)
對於 Postgres Catalog base-url 應為 "jdbc:postgresql://:" 的格式
對於 MySQL Catalog base-url 應為 "jdbc:mysql://:" 的格式
Hive Catalog
CREATE CATALOG myhive WITH ( 'type' = 'hive', 'default-database' = 'mydatabase', 'hive-conf-dir' = '/opt/hive-conf' ); -- set the HiveCatalog as the current catalog of the session USE CATALOG myhive;
Iceberg Catalog
● Hive Catalog 管理 Iceberg 表
(Flink) default_database.flink_table -> (Iceberg) default_database.flink_table CREATE TABLE flink_table ( id BIGINT, data STRING ) WITH ( 'connector'='iceberg', 'catalog-name'='hive_prod', 'uri'='thrift://localhost:9083', 'warehouse'='hdfs://nn:8020/path/to/warehouse' ); (Flink)default_database.flink_table -> (Iceberg) hive_db.hive_iceberg_table CREATE TABLE flink_table ( id BIGINT, data STRING ) WITH ( 'connector'='iceberg', 'catalog-name'='hive_prod', 'catalog-database'='hive_db', 'catalog-table'='hive_iceberg_table', 'uri'='thrift://localhost:9083', 'warehouse'='hdfs://nn:8020/path/to/warehouse' );
● Hadoop Catalog 管理 Iceberg 表
CREATE TABLE flink_table ( id BIGINT, data STRING ) WITH ( 'connector'='iceberg', 'catalog-name'='hadoop_prod', 'catalog-type'='hadoop', 'warehouse'='hdfs://nn:8020/path/to/warehouse' );
● 自定義 Catalog 管理 Iceberg 表
CREATE TABLE flink_table ( id BIGINT, data STRING ) WITH ( 'connector'='iceberg', 'catalog-name'='custom_prod', 'catalog-impl'='com.my.custom.CatalogImpl', -- More table properties for the customized catalog 'my-additional-catalog-config'='my-value', ... );
• connector:iceberg
• catalog-name:使用者指定的目錄名稱,這是必須的,因為聯結器沒有任何預設值
• catalog-type:內建目錄的 hive 或 hadoop(預設為hive),或者對於使用 catalog-impl 的自定義目錄實現,不做設定
• catalog-impl:自定義目錄實現的全限定類名,如果 catalog-type 沒有被設定,則必須被設定,更多細節請參見自定義目錄
• catalog-database: 後臺目錄中的 iceberg 資料庫名稱,預設使用當前的 Flink 資料庫名稱
• catalog-table: 後臺目錄中的冰山表名,預設使用 Flink CREATE TABLE 句子中的表名
Hudi Catalog
create catalog hudi with( 'type' = 'hudi', 'mode' = 'hms', 'hive.conf.dir'='/etc/hive/conf' ); --- 建立資料庫供hudi使用 create database hudi.hudidb; --- order表 CREATE TABLE hudi.hudidb.orders_hudi( uuid INT, ts INT, num INT, PRIMARY KEY(uuid) NOT ENFORCED ) WITH ( 'connector' = 'hudi', 'table.type' = 'MERGE_ON_READ' ); select * from hudi.hudidb.orders_hudi;
Flink Catalog 在 ChunJun 中的實踐
下面將為大家介紹本文的重頭戲,Flink Catalog 在 ChunJun 中的實踐之路。
直接引入開源 Catalog
ChunJun 目前的所有 Catalog 為以下四種:
● Hive Catalog 需要的依賴
● Iceberg Catalog 需要的依賴
● JDBC Catalog
JDBC 因為 Flink 1.12 和 1.13 API 有變化,因此需要涉及原始碼的改動,改動一些 API 後,從原始碼引入。
● DT Catalog
結合內部業務,自定義的一種 Catalog ,下文將會進行詳細介紹。
DT Catalog -儲存後設資料表設計
● 建立 mysql 後設資料表 database_info
-- 建立表的 sql create table database_info ( `id` bigint PRIMARY KEY NOT NULL AUTO_INCREMENT COMMENT '專案ID',-- database id `catalog_name` varchar(255) COMMENT 'catalog 名字', `database_name` varchar(255) COMMENT 'database 名字', `catalog_type` varchar(30) COMMENT 'catalog 型別, eg: mysql,oracle...', `project_id` int(11) NOT NULL COMMENT '專案ID', `tenant_id` int(11) NOT NULL COMMENT '租戶ID' ) ENGINE = InnoDB DEFAULT CHARSET = utf8; -- 建立索引 CREATE INDEX idx_catalog_name_database_name_project_id_tenant_id ON database_info (`catalog_name`, `database_name`, `project_id`, `tenant_id`);
● 建立 mysql 後設資料表 table_info
-- 建立表的 sql create table table_info ( `id` bigint PRIMARY KEY NOT NULL AUTO_INCREMENT, `database_id` bigint COMMENT 'database_info 表的 id', `table_name` varchar(255) COMMENT '表名', `project_id` int(11) NOT NULL COMMENT '專案ID', `tenant_id` int(11) NOT NULL COMMENT '租戶ID' ) ENGINE = InnoDB DEFAULT CHARSET = utf8; -- 建立索引 CREATE INDEX idx_catalog_id_project_id_tenant_id ON table_info (`database_id`, `project_id`, `tenant_id`); CREATE INDEX idx_database_id_table_name_project_id_tenant_id ON table_info (`database_id`, `table_name`, `project_id`, `tenant_id`);
● 建立 mysql 後設資料表 properties_info
create table properties_info ( `id` bigint PRIMARY KEY NOT NULL AUTO_INCREMENT , `table_id` bigint(20) COMMENT 'table_info 表的 id', `key` varchar(255) COMMENT '表的屬性 key', `value` varchar(255) COMMENT '表的屬性 value' ) ENGINE = InnoDB DEFAULT CHARSET = utf8; CREATE INDEX idx_table_id ON properties_info (table_id);
● properties_info 裡面存了什麼?
schema.0.name=id, schema.0.data-type=INT NOT NULL, schema.1.name=name, schema.1.data-type=VARCHAR(2147483647) schema.2.name=age, schema.2.data-type=BIGINT, schema.primary-key.name=PK_3386, schema.primary-key.columns=id, connector=jdbc, url=jdbc:mysql: //172.16.83.218:3306/wujuan?useSSL=false, username=drpeco, password=DT@Stack#123, comment=, scan.auto-commit=true, lookup.cache.max-rows=20000, scan.fetch-size=10, lookup.cache.ttl=700000 table-name=t2,
使用 DT Catalog
● 建立 DT Catalog
CREATE CATALOG catalog1 WITH ( 'type' = 'dt', 'default-database' = 'default_database', 'driver' = 'com.mysql.cj.jdbc.Driver', 'url' = 'jdbc:mysql://xxx:3306/catalog_default', 'username' = 'drpeco', 'password' = 'DT@Stack#123', 'project-id' = '1', 'tenant-id' = '1' );
● 建立 Database
DROP DATABASE [IF EXISTS] [catalog_name.]db_name [ (RESTRICT | CASCADE) ] Drop a database with the given database name. If the database to drop does not exist, an exception is thrown. IF EXISTS If the database does not exist, nothing happens. RESTRICT Dropping a non-empty database triggers an exception. Enabled by default. CASCADE Dropping a non-empty database also drops all associated tables and functions. create database if not exists catalog1.database1 drop database if exists catalog1.database1 -- 刪除非空資料庫,連通資料庫中的所有表也一起刪除 drop database if exists catalog1.database1 CASCADE
● 建立 Table
1)Rename Table
ALTER TABLE [catalog_name.][db_name.]table_name RENAME TO new_table_name Rename the given table name to another new table name
2)Set or Alter Table Properties
ALTER TABLE [catalog_name.][db_name.]table_name SET (key1=val1, key2=val2, ...) Set one or more properties in the specified table. If a particular property is already set in the table, override the old value with the new one.
-- 建立表 CREATE TABLE if not exists catalog1.default_database.table1 ( id int, name string, age bigint, primary key ( id) not enforced ) with ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://172.16.83.218:3306/wujuan?useSSL=false', 'table-name' = 't2', 'username' = 'drpeco', 'password' = 'DT@Stack#123' ); -- 刪除表 drop table if exists mysql_catalog2.wujuan_database2.wujuan_table -- 重新命名錶名 ALTER TABLE catalog1.default_database.table1 RENAME TO table2; -- 設定表屬性 ALTER TABLE catalog1.default_database.table1 SET ( 'tablename'='t2', 'url'='dbc:mysql://172.16.83.218:3306/wujuan?useSSL=false' )
使用 DTCatalog 的具體場景和實現原理
● 全部是 DDL,只有 Catalog 的建立
· 可以執行,但是沒有意義,ChunJun 不會儲存 Catalog 資訊,只有平臺儲存;
· 不支援語法校驗。
CREATE CATALOG catalog1 WITH ( 'type' = 'DT', 'default-database' = 'default_database', 'driver' = 'com.mysql.cj.jdbc.Driver', 'url' = 'jdbc:mysql://172.16.100.186:3306/catalog_default?autoReconnect=true&failOverReadOnly=false', 'username' = 'drpeco', 'password' = 'DT@Stack#123', 'project-id' = '1', 'tenant-id' = '1' );
● 全部是 DDL,包含 Catalog、Database、Table 的建立
· 無論建立資料庫、表,刪除資料庫、表,必須包含 create catalog 語句;
· 可以執行,可以建立資料庫和表;
· 不支援語法校驗。
-- 初始化 Catalog CREATE CATALOG catalog1 WITH ( 'type' = 'dt', 'default-database' = 'default_database', 'driver' = 'com.mysql.cj.jdbc.Driver', 'url' = 'jdbc:mysql://172.16.100.186:3306/catalog_default', 'username' = 'drpeco', 'password' = 'DT@Stack#123', 'project-id' = '1', 'tenant-id' = '1' ); -- 建立資料庫 create database if not exists database1 -- 建立表 CREATE TABLE if not exists catalog1.default_database.table1 ( id int, name string, age bigint, primary key ( id) not enforced ) with ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://172.16.83.218:3306/wujuan?useSSL=false', 'table-name' = 't2', 'username' = 'drpeco', 'password' = 'DT@Stack#123' );
// 丟擲異常的邏輯 StatementSet statementSet = SqlParser.parseSql(job, jarUrlList, tEnv); TableResult execute = statementSet.execute(); --> tableEnvironment.executeInternal(operations); --> Pipeline pipeline = execEnv.createPipeline(transformations, tableConfig, jobName); --> StreamGraph streamGraph = ExecutorUtils.generateStreamGraph(getExecutionEnvironment(), transformations); --> // 丟擲異常的方法 public static StreamGraph generateStreamGraph(StreamExecutionEnvironment execEnv, List<Transformation<?>> transformations){ if (transformations.size() <= 0) { throw new IllegalStateException( "No operators defined in streaming topology. Cannot generate StreamGraph."); } ... return generator.generate(); } // 如果沒有 insert 語句的時候,無法生成 JobGraph,但是 DDL 是執行成功的。 // 因此捕獲 FlinkX 丟擲的特殊異常,此語句的異常 Message 是 FlinkX 裡面處理的。 try { PackagedProgramUtils.createJobGraph(program, flinkConfig, 1, false); } catch (ProgramInvocationException e) { // 僅執行 DDL FlinkX 丟擲的異常 if (!e.getMessage().contains("OnlyExecuteDDL")) { throw e; } }
● DDL + DML,包含 create + insert 語句
1)初始化 Catalog
CREATE CATALOG catalog1 WITH ( 'type' = 'dt', 'default-database' = 'default_database', 'driver' = 'com.mysql.cj.jdbc.Driver', 'url' = 'jdbc:mysql://172.16.100.186:3306/catalog_default', 'username' = 'drpeco', 'password' = 'DT@Stack#123', 'project-id' = '1', 'tenant-id' = '1' );
2.1)建立資料庫
create database if not exists database1
2.2)建立源表
CREATE TABLE if not exists catalog1.default_database.table1 ( id int, name string, age bigint, primary key ( id) not enforced ) with ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://172.16.83.218:3306/wujuan?useSSL=false', 'table-name' = 't2', 'username' = 'drpeco', 'password' = 'DT@Stack#123' );
3.1)建立資料庫
create database if not exists catalog1.database2;
3.2)建立結果表
CREATE TABLE if not exists catalog1.database2.table2 ( id int, name string, age bigint, primary key ( id) not enforced ) with ( 'connector' = 'print' );
4)執行任務
insert into catalog1.database2.table2 select * from catalog1.database1.table1
· 不可以執行,可以提交;
· 支援語法校驗。
● DML,只有 Insert 語句
-- 初始化 Catalog CREATE CATALOG catalog1 WITH ( 'type' = 'dt', 'default-database' = 'default_database', 'driver' = 'com.mysql.cj.jdbc.Driver', 'url' = 'jdbc:mysql://172.16.100.186:3306/catalog_default', 'username' = 'drpeco', 'password' = 'DT@Stack#123', 'project-id' = '1', 'tenant-id' = '1' ); -- 執行任務 insert into catalog1.database2.table2 select * from catalog1.database1.table1 · 如果 Catalog 的 資料庫和表都已經建立好了,那麼直接寫 insert 就可以提交任務;
· 不可以執行,可以提交;
· 支援語法校驗。
《資料治理行業實踐白皮書》下載地址:
想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2944388/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Kerberos 身份驗證在 ChunJun 中的落地實踐ROS
- RocketMQ Flink Catalog 設計與實踐MQ
- Flink在唯品會的實踐
- 長文解讀:Flink在唯品會的實踐應用!
- Apache Flink在唯品會的實踐Apache
- Flink在美團的實踐與應用
- Flink 在米哈遊的落地實踐
- Flink CEP 在抖音電商的業務實踐
- Flink 在又拍雲日誌批處理中的實踐
- Flink CDC 系列 - Flink MongoDB CDC 在 XTransfer 的生產實踐MongoDB
- Flink 流批一體在小米的實踐
- Flink 在米哈遊的應用實踐
- Flink CDC 在大健雲倉的實踐
- Apache Flink 在鬥魚的應用與實踐Apache
- Apache Flink 在翼支付的實踐應用Apache
- Flink CDC 在易車的應用實踐
- Flink MongoDB CDC 在 XTransfer 的生產實踐|Flink CDC 專題MongoDB
- Doris和Flink在實時數倉實踐
- 日均處理萬億資料!Flink在快手的應用實踐與技術演進之路
- Native Flink on Kubernetes 在小紅書的實踐
- Flink SQL 在快手的擴充套件和實踐SQL套件
- Apache Flink 在汽車之家的應用與實踐Apache
- Flink 在中泰證券的實踐與應用
- Apache Flink 在移動雲實時計算的實踐Apache
- Flink 在人工智慧領域的應用實踐人工智慧
- Flink 在 B 站的多元化探索與實踐
- Flink 流批一體方案在數禾的實踐
- 詳解 Flink 實時應用的確定性
- 京東技術中臺的Flutter實踐之路Flutter
- rman catalog的配置及詳解例項
- Flink 引擎在快手的深度優化與生產實踐優化
- Apache Flink 在小米的穩定性最佳化和實踐Apache
- Flink CDC + Hudi 海量資料入湖在順豐的實踐
- Nmap在實戰中的高階用法(詳解)
- flink window詳解
- Elasticsearch在Laravel中的實踐ElasticsearchLaravel
- “流量回放” 在多耦合系統重構中的實踐之路 - 謝林
- AI安全在阿里業務中的實踐,你瞭解嗎?AI阿里