如何跑通第一個 SQL 作業

阿里云云棲號發表於2021-01-19

原文網址 : https://www.cnblogs.com/yunqishequ/p/14296553.html

SQL

簡介：本文由阿里巴巴技術專家周凱波（寶牛）分享，主要介紹如何跑通第一個SQL。

一、SQL的基本概念

1.SQL 分類

SQL分為四類，分別是資料查詢語言（DQL）、資料操縱語言（DML）、資料定義（DDL）語言和資料控制語言（DCL）。今天將介紹前三種語言的使用。

接下來介紹幾個基本概念。

2.SQL 開發

● Scripts，即SQL文字。在SQL文字里面可以寫上文介紹的前三種語言；
● Schema，即後設資料。SQL裡面需要使用的表和函式，是通過Schema進行定義的；
● Artifacts，即UDF Jar包；

3.Catalog

在 Flink SQL裡，Catalog是管理後設資料的。Catalog通過Catalog.DB.Table來定位一張表。除了DB和Table，Catalog還能註冊函式，如UDF、UDTF和UDAF。

在Flink Catalog裡，有三種Catalog實現：

● 第一個是GenericInMemoryCatalog，是記憶體版的Catalog。平常在使用 Flink SQL的時候，預設是記憶體版的Catalog。當程式執行結束，第二次重新執行的時候，會重新生成一個Catalog例項。
● 第二個是HiveCatalog，Flink裡比較好的支援了HiveCatalog，可以從Hive HMS裡讀取後設資料，同時也可以往Hive裡登錄檔，寫資料到Hive裡面去。
● 第三個Catalog是 VVP平臺裡面開發的Catalog，即VvpCatalog，它實現了Flink Catalog的介面，底層是使用的資料庫。

4.Deployment

Deployment是一個作業的描述，目前有兩種任務型別，JAR和SQL。

Deployment上有升級策略（Upgrade strategy）和恢復策略（Restore strategy）。Upgrade strategy是指Deployment執行後，使用者可以對Deployment的引數進行修改，這個修改如何影響Deployment的執行就是由不同的升級策略決定的；Restore strategy 指啟動 Flink任務時，是否從 Savepoint/Checkpoint進行恢復就是不同的恢復策略。

Flink的版本和配置，常用的Flink的引數都可以在這裡進行配置。例如：Task Managers 數量，Jobmanager和Taskmanager 的 CPU 和記憶體等。

Deployment上除了作業描述外，還有期望狀態和實際狀態。期望狀態是指使用者所期望的目標狀態，例如當要將執行中的作業停止時，期望狀態就是Canceled；操作完成的實際執行狀態就是實際狀態。

總的來說，Deployment是一個任務的描述模板。VVP平臺內部的狀態機會根據Deployment的期望狀態和實際狀態來控制作業的實際執行。

5.Job

Deployment啟動時會生成一個Job，這個Job對應一個具體的 Flink Job。同一時間，一個Deployment上只會有一個正在執行的Job。

二、SQL的語法說明

1.語法說明

首先看下圖的語句，分別是建立源表和建立結果表。

下圖是註冊函式。函式的註冊分為兩步，第一步上傳JAR包，然後在系統上可以勾選自動註冊；第二種是使用 Flink 語法進行手工註冊。

使用函式有兩種方式，第一是內建函式的使用，如下圖UPPER是 Flink 自帶的函式；第二種是自定義函式，像MyScalarFunc。

在VVP平臺裡，也支援 Flink 裡的Temporary Table，可以將它理解為臨時表，只在當前會話週期內有效。在下圖例子中，我們建立了兩個Temporary Table，讀取datagen_source表中的資料，輸出到blackhole_sink表。

下圖是Temporary View的語法示例。前面兩段是一樣的臨時表；第三條語句是建立了一個tmp_view，它代表從Datagen_source的查詢。在Flink裡面Temporary View可以理解為讓SQL的書寫變得更簡單，它不會對資料進行一個持久化，和資料庫裡面View概念是不一樣的。第四條語句是從 view裡面讀取資料並寫入到sink表裡。

下圖是Statement set的語法示例，這個語法目前在 Flink 1.11版本里還沒有，但是在VVP平臺做了一些支援。

如上圖，BEGIN STATEMENT SET和END這兩個語句之間可以寫多條 insert into語句。上圖的例子是讀取datagen_source 表往兩張sink表同時寫。這個語句提交後會啟動一個完整的Flink Job，裡面會有1個source和兩個sink。

2.SQL的應用範圍

Create Table，它註冊的表會寫入系統Catalog裡，在VVP平臺上面會寫到VvpCatalog中，並進行持久化。好處是適合多個query共享後設資料。

Create Temporary Table，臨時表。它會寫到記憶體版的Catalog裡，不會持久化。所以它適合不需要共享後設資料的場景，只給當前query使用。

Create Temporary View，主要目的是簡化SQL語句。如果不通過Create Temporary View，對於邏輯複雜的SQL寫起來會相當複雜，可讀性也很差。

Statement Set，適合需要輸出到多個下游的場景。

三、SQL 實戰

接下來向大家展示銷量統計的例項。如下圖所示，需求是統計每小時成交量。

我們首先建立兩張表，一個是源表，一個是結果表。下圖是建立源表的語句，資料來源來自kafka，然後定義watermark是5秒鐘。

下圖是結果表，也是一個kafka表。

下圖是查詢語句，從源表讀取資料後，會通過tumble window視窗聚合對資料做一個統計，這樣就求出了每小時的成交量。

1.實戰演示

開啟VVP的介面，左側有SQL編輯器，在這個編輯器左邊有三欄，第一欄是Scripts，寫SQL文字的地方；第二欄是Schemas，用來定義後設資料；第三欄是Artifacts，用來註冊UDF。

首先定義一張datagen_source的表。點選右上角的驗證按鈕，驗證通過後點選旁邊的執行。點選執行之後，可以在下面看到執行的結果，執行成功後點選左側的Schemas，可以找到剛剛建立的datagen_source表。

然後再建立一張sink表，connector型別是blackhole。然後驗證並執行。

這樣兩張表都已經註冊到Catalog裡面去了，預設的Catalog名字是VVP，Database名字是Default。

接下來就可以寫SQL語句。比如說寫一條INSERT INTO語句，寫完之後點驗證並執行。在執行這條INSERT INTO語句時，系統會提示是否要建立一個SQL作業，點選確認，補充名稱等資訊，SQL作業就建立好了。

點選啟動這個作業，啟動過程中可以在頁面上看到關於這個作業的很多資訊和配置。

2.UDF實戰展示

UDF開發完成後會打一個JAR包，然後點SQL編輯器左側的Artifacts，然後點“+”號，將JAR 包上傳上來。

上傳完畢，完善JAR 包名稱等資訊後，點確認完成。JAR包上傳過程中，VVP系統會對JAR 包進行解析。解析之後系統會提示是否註冊，勾選需要註冊的內容，點選建立Function。

然後如下圖，上面就是已註冊的Function，下面是可用Function，可以選擇繼續註冊或關掉視窗。

如果不需要這個函式了，可以在頁面左側找到已經註冊的Function，點選右側尾部圖示，選擇Drop Function。若想重新註冊，有兩種方法，第一可以點選管理Function；第二通過 Flink的註冊函式手動註冊。
用註冊好的Function建立SQL作業。

在建立頁面下拉可以看到很多高階配置，只修改自己需要的配置即可。

3.Temporary table的使用

上面的例子是註冊在Catalog裡的，如果不想每次都在Catalog裡面進行註冊，那就可以直接使用 Temporary table。

如下圖將table的建立和INSERT INTO全部寫在一起，這樣就可以直接建立一個新的SQL作業，而不用提前在Catalog裡註冊了。

4.Temporary View

將前面Temporary View例子頁面中的語句複製到VVP平臺的SQL編輯器中，直接點選執行就可以建立一個作業。

5.Statement Set

將前面Statement Set例子頁面中的語句複製到編輯器中，直接點選執行就可以建立一個作業。啟動後，可以通過下圖看到執行情況，這個任務從一個源表中讀取資料輸出到了兩個不同的sink表中。

6.查詢實戰

將前面SQL 實戰中建立源表、結果表和查詢頁面的語句分別複製貼上到VVP平臺的SQL編輯器並啟動執行。從下圖可以看到這個讀寫kafka的任務執行起來了。

作者：周凱波（寶牛），阿里巴巴技術專家

原文連結

本文為阿里雲原創內容，未經允許不得轉載

第一次個人作業
2024-09-12
將第一個 sql 語句中的結果作為第二個 sql 的引數值
2019-12-29
SQL
自制作業系統(一) 第一個作業系統
2020-10-03
作業系統
通訊專業作業
2024-06-03
[2024SAU]第一次個人作業
2024-03-29
軟體工程第一次個人作業
2024-09-04
軟體工程
第一次個人程式設計作業
2024-09-15
程式設計
第一週作業補
2018-07-23
2024軟體工程第一次個人作業
2024-09-08
軟體工程
sql語句抄寫作業
2020-11-09
SQL
23201814 第一輪PTA作業
2024-04-21
JAVA EE 第一週作業
2020-04-06
Java
第一次作業
2024-09-27
第一組【團隊作業】第三週作業2
2024-03-21
在Linux中，什麼是cron作業？如何建立一個cron作業？
2024-04-05
Linux
Flink入坑指南第三章：第一個作業
2018-12-27
軟體工程課程第一次個人作業
2024-09-20
軟體工程
2024秋軟體工程個人作業（第一次）
2024-09-07
軟體工程
作為DMAIC的第一個階段，Define是如何工作的？
2023-02-13
AI
第一組【團隊作業】第四周作業1
2024-03-29
第一組【團隊作業】第四周作業2
2024-03-29
智雲通CRM：如何100%掌控專案，不“跑單”？
2022-01-13
3121001738第一次作業
2024-03-10
3121003079第一次作業
2024-03-10
WEB第一天作業
2020-09-25
Web
跑批SQL效能異常分析
2024-02-20
SQL
個人作業
2024-03-13
OB案例、金融行業核心系統跑批SQL最佳化
2024-10-23
行業SQL
Python 第一週程式設計作業
2018-09-12
Python程式設計
軟工第一次作業
2024-03-31
軟工
作業系統基礎第一講
2024-10-08
作業系統
第一次結對作業
2024-09-27
第一、次作業思維導圖
2024-09-28
第一次部落格作業
2024-10-26
作業系統第一章
2020-12-05
作業系統
2024秋軟體工程課程個人作業（第一次）
2024-09-05
軟體工程
3.三分鐘跑啟你的第一個Flutter App
2019-03-19
FlutterAPP
mysql如何處理億級資料，第一個階段——優化SQL語句
2018-09-03
MySql優化

如何跑通第一個 SQL 作業

一、SQL的基本概念

二、SQL的語法說明

三、SQL 實戰

相關文章