Flink的DataSource三部曲之三:自定義

程式設計師欣宸發表於2020-11-07

原文網址 : https://www.cnblogs.com/bolingcavalry/p/13939929.html

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

本篇概覽

本文是《Flink的DataSource三部曲》的終篇，前面都是在學習Flink已有的資料來源功能，但如果這些不能滿足需要，就要自定義資料來源（例如從資料庫獲取資料），也就是今天實戰的內容，如下圖紅框所示：

在這裡插入圖片描述

Flink的DataSource三部曲文章連結

環境和版本

本次實戰的環境和版本如下：

JDK：1.8.0_211
Flink：1.9.2
Maven：3.6.0
作業系統：macOS Catalina 10.15.3 （MacBook Pro 13-inch, 2018）
IDEA：2018.3.5 (Ultimate Edition)

在伺服器上搭建Flink服務

前面兩章的程式都是在IDEA上執行的，本章需要通過Flink的web ui觀察執行結果，因此要單獨部署Flink服務，我這裡是在CentOS環境通過docker-compose部署的，以下是docker-compose.yml的內容，用於參考：

version: "2.1"
services:
  jobmanager:
    image: flink:1.9.2-scala_2.12
    expose:
      - "6123"
    ports:
      - "8081:8081"
    command: jobmanager
    environment:
      - JOB_MANAGER_RPC_ADDRESS=jobmanager
  taskmanager1:
    image: flink:1.9.2-scala_2.12
    expose:
      - "6121"
      - "6122"
    depends_on:
      - jobmanager
    command: taskmanager
    links:
      - "jobmanager:jobmanager"
    environment:
      - JOB_MANAGER_RPC_ADDRESS=jobmanager
  taskmanager2:
    image: flink:1.9.2-scala_2.12
    expose:
      - "6121"
      - "6122"
    depends_on:
      - jobmanager
    command: taskmanager
    links:
      - "jobmanager:jobmanager"
    environment:
      - JOB_MANAGER_RPC_ADDRESS=jobmanager

下圖是我的Flink情況，有兩個Task Maganer，共八個Slot全部可用：

在這裡插入圖片描述

原始碼下載

如果您不想寫程式碼，整個系列的原始碼可在GitHub下載到，地址和連結資訊如下表所示(https://github.com/zq2599/blog_demos)：

名稱	連結	備註
專案主頁	https://github.com/zq2599/blog_demos	該專案在GitHub上的主頁
git倉庫地址(https)	https://github.com/zq2599/blog_demos.git	該專案原始碼的倉庫地址，https協議
git倉庫地址(ssh)	git@github.com:zq2599/blog_demos.git	該專案原始碼的倉庫地址，ssh協議

這個git專案中有多個資料夾，本章的應用在flinkdatasourcedemo資料夾下，如下圖紅框所示：

在這裡插入圖片描述

準備完畢，開始開發；

實現SourceFunctionDemo介面的DataSource

從最簡單的開始，開發一個不可並行的資料來源並驗證；
實現SourceFunction介面，在工程flinkdatasourcedemo中增加SourceFunctionDemo.java：

package com.bolingcavalry.customize;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.windowing.time.Time;

public class SourceFunctionDemo {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //並行度為2
        env.setParallelism(2);

        DataStream<Tuple2<Integer,Integer>> dataStream = env.addSource(new SourceFunction<Tuple2<Integer, Integer>>() {

            private volatile boolean isRunning = true;

            @Override
            public void run(SourceContext<Tuple2<Integer, Integer>> ctx) throws Exception {
                int i = 0;
                while (isRunning) {
                    ctx.collect(new Tuple2<>(i++ % 5, 1));
                    Thread.sleep(1000);
                    if(i>9){
                        break;
                    }
                }
            }

            @Override
            public void cancel() {
                isRunning = false;
            }
        });

        dataStream
                .keyBy(0)
                .timeWindow(Time.seconds(2))
                .sum(1)
                .print();

        env.execute("Customize DataSource demo : SourceFunction");
    }
}

從上述程式碼可見，給addSource方法傳入一個匿名類例項，該匿名類實現了SourceFunction介面；
實現SourceFunction介面只需實現run和cancel方法；
run方法產生資料，這裡為了簡答操作，每隔一秒產生一個Tuple2例項，由於接下來的運算元中有keyBy操作，因此Tuple2的第一個欄位始終保持著5的餘數，這樣可以多幾個key，以便分散到不同的slot中；
為了核對資料是否準確，這裡並沒有無限傳送資料，而是僅傳送了10個Tuple2例項；
cancel是job被取消時執行的方法；
整體並行度顯式設定為2；
編碼完成後，執行mvn clean package -U -DskipTests構建，在target目錄得到檔案flinkdatasourcedemo-1.0-SNAPSHOT.jar；
在Flink的web UI上傳flinkdatasourcedemo-1.0-SNAPSHOT.jar，並指定執行類，如下圖紅框所示：

在這裡插入圖片描述

1. 任務執行完成後，在Completed Jobs頁面可以看到，DataSource的並行度是1（紅框），對應的SubTask一共傳送了10條記錄（藍框），這和我們的程式碼是一致的；

在這裡插入圖片描述

再來看消費的子任務，如下圖，紅框顯示並行度是2，這和前面程式碼中的設定是一致的，藍框顯示兩個子任務一共收到10條資料記錄，和上游發出的數量一致：

在這裡插入圖片描述

接下來嘗試多並行度的DataSource；

實現ParallelSourceFunction介面的DataSource

如果自定義DataSource中有複雜的或者耗時的操作，那麼增加DataSource的並行度，讓多個SubTask同時進行這些操作，可以有效提升整體吞吐量（前提是硬體資源充裕）；
接下來實戰可以並行執行的DataSource，原理是DataSoure實現ParallelSourceFunction介面，程式碼如下，可見和SourceFunctionDemo幾乎一樣，只是addSource方發入參不同，該入參依然是匿名類，不過實現的的介面變成了ParallelSourceFunction：

package com.bolingcavalry.customize;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.ParallelSourceFunction;
import org.apache.flink.streaming.api.windowing.time.Time;

public class ParrelSourceFunctionDemo {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //並行度為2
        env.setParallelism(2);

        DataStream<Tuple2<Integer,Integer>> dataStream = env.addSource(new ParallelSourceFunction<Tuple2<Integer, Integer>>() {

            private volatile boolean isRunning = true;

            @Override
            public void run(SourceContext<Tuple2<Integer, Integer>> ctx) throws Exception {
                int i = 0;
                while (isRunning) {
                    ctx.collect(new Tuple2<>(i++ % 5, 1));
                    Thread.sleep(1000);
                    if(i>9){
                        break;
                    }
                }
            }

            @Override
            public void cancel() {
                isRunning = false;
            }
        });

        dataStream
                .keyBy(0)
                .timeWindow(Time.seconds(2))
                .sum(1)
                .print();

        env.execute("Customize DataSource demo : ParallelSourceFunction");
    }
}

編碼完成後，執行mvn clean package -U -DskipTests構建，在target目錄得到檔案flinkdatasourcedemo-1.0-SNAPSHOT.jar；
在Flink的web UI上傳flinkdatasourcedemo-1.0-SNAPSHOT.jar，並指定執行類，如下圖紅框所示：

在這裡插入圖片描述
5. 任務執行完成後，在Completed Jobs頁面可以看到，如今DataSource的並行度是2（紅框），對應的SubTask一共傳送了20條記錄（藍框），這和我們的程式碼是一致的，綠框顯示兩個SubTask的Task Manager是同一個：

在這裡插入圖片描述
6. 為什麼DataSource一共傳送了20條記錄？因為每個SubTask中都有一份ParallelSourceFunction匿名類的例項，對應的run方法分別被執行，因此每個SubTask都傳送了10條；
7. 再來看消費資料的子任務，如下圖，紅框顯示並行度與程式碼中設定的數量是一致的，藍框顯示兩個SubTask一共消費了20條記錄，和資料來源發出的記錄數一致，另外綠框顯示兩個SubTask的Task Manager是同一個，而且和DataSource的TaskManager是同一個，因此整個job都是在同一個TaskManager進行的，沒有跨機器帶來的額外代價：

在這裡插入圖片描述
8. 接下來要實踐的內容，和另一個重要的抽象類有關；

繼承抽象類RichSourceFunction的DataSource

對RichSourceFunction的理解是從繼承關係開始的，如下圖，SourceFunction和RichFunction的特性最終都體現在RichSourceFunction上，SourceFunction的特性是資料的生成(run方法)，RichFunction的特性是對資源的連線和釋放(open和close方法)：

在這裡插入圖片描述
2. 接下來開始實戰，目標是從MySQL獲取資料作為DataSource，然後消費這些資料；
3. 請提前準備好可用的MySql資料庫，然後執行以下SQL，建立庫、表、記錄：

DROP DATABASE IF EXISTS flinkdemo;
CREATE DATABASE IF NOT EXISTS flinkdemo;
USE flinkdemo;

SELECT 'CREATING DATABASE STRUCTURE' as 'INFO';

DROP TABLE IF EXISTS `student`;
CREATE TABLE `student` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(25) COLLATE utf8_bin DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

INSERT INTO `student` VALUES ('1', 'student01'), ('2', 'student02'), ('3', 'student03'), ('4', 'student04'), ('5', 'student05'), ('6', 'student06');
COMMIT;

在pom.xml中增加mysql依賴：

<dependency>
  <groupId>mysql</groupId>
  <artifactId>mysql-connector-java</artifactId>
  <version>5.1.34</version>
</dependency>

新增MySQLDataSource.java，內容如下：

package com.bolingcavalry.customize;

import com.bolingcavalry.Student;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;

public class MySQLDataSource extends RichSourceFunction<Student> {

    private Connection connection = null;

    private PreparedStatement preparedStatement = null;

    private volatile boolean isRunning = true;

    @Override
    public void open(Configuration parameters) throws Exception {
        super.open(parameters);

        if(null==connection) {
            Class.forName("com.mysql.jdbc.Driver");
            connection = DriverManager.getConnection("jdbc:mysql://192.168.50.43:3306/flinkdemo?useUnicode=true&characterEncoding=UTF-8", "root", "123456");
        }

        if(null==preparedStatement) {
            preparedStatement = connection.prepareStatement("select id, name from student");
        }
    }

    /**
     * 釋放資源
     * @throws Exception
     */
    @Override
    public void close() throws Exception {
        super.close();

        if(null!=preparedStatement) {
            try {
                preparedStatement.close();
            } catch (Exception exception) {
                exception.printStackTrace();
            }
        }

        if(null==connection) {
            connection.close();
        }
    }

    @Override
    public void run(SourceContext<Student> ctx) throws Exception {
        ResultSet resultSet = preparedStatement.executeQuery();
        while (resultSet.next() && isRunning) {
            Student student = new Student();
            student.setId(resultSet.getInt("id"));
            student.setName(resultSet.getString("name"));
            ctx.collect(student);
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
    }
}

上面的程式碼中，MySQLDataSource繼承了RichSourceFunction，作為一個DataSource，可以作為addSource方法的入參；
open和close方法都會被資料來源的SubTask呼叫，open負責建立資料庫連線物件，close負責釋放資源；
open方法中直接寫死了資料庫相關的配置(不可取)；
run方法在open之後被呼叫，作用和之前的DataSource例子一樣，負責生產資料，這裡是用前面準備好的preparedStatement物件直接去資料庫取資料；
接下來寫個Demo類使用MySQLDataSource：

package com.bolingcavalry.customize;

import com.bolingcavalry.Student;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class RichSourceFunctionDemo {

    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //並行度為2
        env.setParallelism(2);

        DataStream<Student> dataStream = env.addSource(new MySQLDataSource());
        dataStream.print();

        env.execute("Customize DataSource demo : RichSourceFunction");
    }
}

從上述程式碼可見，MySQLDataSource例項傳入addSource方法即可建立資料集；
像之前那樣，編譯構建、提交到Flink、指定任務類，即可開始執行此任務；
執行結果如下圖，DataSource的並行度是1，一共傳送六條記錄，即student表的所有記錄：

在這裡插入圖片描述
14. 處理資料的SubTask一共兩個，各處理三條訊息：

在這裡插入圖片描述
15. 由於程式碼中對資料集執行了print()，因此在TaskManager控制檯看到資料輸出如下圖紅框所示：

在這裡插入圖片描述

關於RichParallelSourceFunction

實戰到了這裡，還剩RichParallelSourceFunction這個抽象類我們還沒有嘗試過，但我覺得這個類可以不用在文中多說了，我們們把RichlSourceFunction和RichParallelSourceFunction的類圖放在一起看看：

在這裡插入圖片描述
2. 從上圖可見，在RichFunction繼承關係上，兩者一致，在SourceFunction的繼承關係上，RichlSourceFunction和RichParallelSourceFunction略有不同，RichParallelSourceFunction走的是ParallelSourceFunction這條線，而SourceFunction和ParallelSourceFunction的區別，前面已經講過了，因此，結果不言而喻：繼承RichParallelSourceFunction的DataSource的並行度是可以大於1的；
3. 讀者您如果有興趣，可以將前面的MySQLDataSource改成繼承RichParallelSourceFunction再試試，DataSource的並行度會超過1，但是絕不是隻有這一點變化，DAG圖顯示Flink還會做一些Operator Chain處理，但這不是本章要關注的內容，只能說結果是正確的（兩個DataSource的SubTask，一共傳送12條記錄），建議您試試；

至此，《Flink的DataSource三部曲》系列就全部完成了，好的開始是成功的一半，在拿到資料後，後面還有很多知識點要學習和掌握，接下來的文章會繼續深入Flink的奇妙之旅；

歡迎關注公眾號：程式設計師欣宸

微信搜尋「程式設計師欣宸」，我是欣宸，期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

Flink的DataSource三部曲之一：直接API
2020-11-05
API
Flink的DataSource三部曲之二:內建connector
2020-11-06
Flink on Yarn三部曲之三：提交Flink任務
2022-12-04
Yarn
k8s自定義controller三部曲之三：編寫controller程式碼
2022-09-04
K8SController
Flink 自定義維表
2019-05-07
Docker下Prometheus和Grafana三部曲之三：自定義監控項開發和配置
2022-08-26
DockerPrometheusGrafana
Flink的sink實戰之四：自定義
2020-11-11
【需求解決系列之三】Android 自定義可展開收回的ExpandableTextView
2018-08-30
AndroidTextView
Flink的sink實戰之三：cassandra3
2020-11-10
自定義spring boot starter三部曲之一：準備工作
2022-07-13
Spring Boot
《從0到1學習Flink》—— 如何自定義 Data Source ？
2018-11-07
Flink 從 0 到 1 學習 —— 如何自定義 Data Sink ？
2019-09-21
自定義spring boot starter三部曲之二：實戰開發
2022-07-14
Spring Boot
6月23日直播預告丨如何自定義Flink LookupTable
2021-06-23
CDH+Kylin三部曲之三：Kylin官方demo
2022-12-07
elasticsearch實戰三部曲之三：搜尋操作
2022-07-31
Elasticsearch
Docker下的OpenResty三部曲之三：OpenResty加Tomcat的服務
2022-05-18
DockerRESTTomcat
Flink去重統計-基於自定義布隆過濾器
2021-05-20
過濾器
Flink on Yarn三部曲之一：準備工作
2022-12-02
Yarn
k8s自定義controller三部曲之二:自動生成程式碼
2022-09-02
K8SController
k8s自定義controller三部曲之一:建立CRD（Custom Resource Definition）
2022-09-01
K8SController
Flink處理函式實戰之三：KeyedProcessFunction類
2020-11-21
函式Function
自定義的PopupWindow
2018-05-10
Flink on Yarn三部曲之二：部署和設定
2022-12-03
Yarn
Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略
2020-10-31
SQL
LeetCode第三題三部曲之三：兩次最佳化
2022-08-04
LeetCode
Docker下Java檔案上傳服務三部曲之三
2022-05-20
DockerJava
高度自定義的STDPickerView
2018-03-19
View
Go語言基準測試(benchmark)三部曲之三：提高篇
2023-11-03
Go
CoProcessFunction實戰三部曲之三：定時器和側輸出
2021-07-22
Function定時器
CDH5部署三部曲之三：問題總結
2022-11-29
H5
kubernetes下的Nginx加Tomcat三部曲之三：實戰擴容和升級
2022-05-19
NginxTomcat
Kubernetes下web服務的效能測試三部曲之三：橫向擴容
2022-05-18
Web
android自定義view(自定義數字鍵盤)
2021-09-09
AndroidView
netty自定義Decoder用於自定義協議
2021-09-09
Netty協議
Spring Boot建立DataSource時遇到的錯誤：No supported DataSource type found
2018-08-18
Spring Boot
Failed to configure a DataSource: ‘url‘ attribute is not specified and no embedded datasource could
2020-12-01
AI
自定義VIEW
2019-03-27
View

Flink的DataSource三部曲之三:自定義

歡迎訪問我的GitHub

本篇概覽

Flink的DataSource三部曲文章連結

環境和版本

在伺服器上搭建Flink服務

原始碼下載

實現SourceFunctionDemo介面的DataSource

實現ParallelSourceFunction介面的DataSource

繼承抽象類RichSourceFunction的DataSource

關於RichParallelSourceFunction

歡迎關注公眾號：程式設計師欣宸

相關文章