Flink 原始碼解析--Stream、Job、ExecutionGraph的生成示例

午後的紅茶meton發表於2020-09-27

原文網址 : https://blog.csdn.net/u012151684/article/details/108836874

應用程式示例2：

public class SocketTextStreamWordCount {
    
    public static void main(String[] args) throws Exception {
        if (args.length != 2){
            System.err.println("USAGE:\nSocketTextStreamWordCount <hostname> <port>");
            return;
        }
        String hostName = args[0];
        Integer port = Integer.parseInt(args[1]);
        // set up the execution environment
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // get input data
        DataStream<String> text = env.socketTextStream(hostName, port).setParallelism(1);
        
        text.flatMap(new LineSplitter()).setParallelism(2)     // group by the tuple field "0" and sum up tuple field "1"
                .keyBy(0)
                .sum(1).setParallelism(2)
                .print();
                
        env.execute("Java WordCount from SocketTextStream Example");
    }
    
    /**
     * Implements the string tokenizer that splits sentences into words as a user-defined
     * FlatMapFunction. The function takes a line (String) and splits it into
     * multiple pairs in the form of "(word,1)" (Tuple2&lt;String, Integer&gt;).
     */
    public static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
            // normalize and split the line
            String[] tokens = value.toLowerCase().split("\\W+");
            // emit the pairs
            for (String token : tokens) {
                if (token.length() > 0) {
                    out.collect(new Tuple2<String, Integer>(token, 1));
                }
            }
        }
    }
}

其轉化分析如下：

上面這張圖清晰的給出了flink各個圖的工作原理和轉換過程。其中最後一個物理執行圖並非flink的資料結構，而是程式開始執行後，各個task分佈在不同的節點上，所形成的物理上的關係表示。

從JobGraph的圖裡可以看到，資料從上一個operator流到下一個operator的過程中，上游作為生產者提供了IntermediateDataSet，而下游作為消費者需要JobEdge。事實上，JobEdge是一個通訊管道，連線了上游生產的dataset和下游的JobVertex節點。
在JobGraph轉換到ExecutionGraph的過程中，主要發生了以下轉變：
- 加入了並行度的概念，成為真正可排程的圖結構
- 生成了與JobVertex對應的ExecutionJobVertex，ExecutionVertex，與IntermediateDataSet對應的IntermediateResult和IntermediateResultPartition等，並行將通過這些類實現
ExecutionGraph已經可以用於排程任務。可以看到flink根據該圖生成了一一對應的Task，每個task對應一個ExecutionGraph的一個Execution。Task用InputGate、InputChannel和ResultPartition對應了上面圖中的IntermediateResult和ExecutionEdge。

其中StreamGraph是對使用者邏輯的對映。JobGraph在此基礎上進行了一些優化，比如把一部分操作串成chain以提高效率。ExecutionGraph是為了排程存在的，加入了並行處理的概念。而在此基礎上真正執行的是Task及其相關結構。

[原始碼解析] 當 Java Stream 遇見 Flink
2020-08-17
原始碼Java
Flink kafka source & sink 原始碼解析
2020-04-03
Kafka原始碼
LinkedList 基本示例及原始碼解析
2019-05-30
原始碼
spark核心(下)——job任務提交原始碼解析
2020-12-16
Spark原始碼
Python程式碼解析： job = next(job for job in jobs if job.job_id == job_id)
2024-06-28
Python
[原始碼解析] 從TimeoutException看Flink的心跳機制
2020-06-23
原始碼Exception
[原始碼解析] GroupReduce，GroupCombine 和 Flink SQL group by
2020-06-16
原始碼SQL
[原始碼解析] Flink的groupBy和reduce究竟做了什麼
2020-06-09
原始碼
[原始碼解析] Flink的Slot究竟是什麼？(2)
2020-09-04
原始碼
[原始碼解析] Flink的Slot究竟是什麼？(1)
2020-08-24
原始碼
[原始碼解析] Flink UDAF 背後做了什麼
2020-08-12
原始碼
解析arrify 轉陣列實現示例原始碼
2023-02-24
陣列原始碼
flink CEP示例
2020-10-01
await 錯誤捕獲實現方式原始碼示例解析
2023-02-25
AI原始碼
Eta中的Apache Flink示例
2018-10-14
Apache
《Flink SQL任務自動生成與提交》後續：修改flink原始碼實現kafka connector BatchMode
2022-01-12
SQL原始碼KafkaBAT
【長文剖析】Spring Cloud OAuth 生成Token 原始碼解析
2019-04-15
SpringCloudOAuth原始碼
Mapreduce Job提交流程原始碼和切片原始碼詳解
2020-10-13
原始碼
Flink提交Job的方式以及引數設定
2023-09-28
elastic-job 原始碼解讀之從原始碼看null值
2021-09-09
AST原始碼Null
flink stream轉table POJO物件遇到的坑
2024-08-02
POJO物件
Kubernetes Job Controller 原理和原始碼分析（一）
2021-10-19
Controller原始碼
redux的原始碼解析
2018-05-17
Redux原始碼
SpringAOP的原始碼解析
2022-04-17
Spring原始碼
Flink的Job manager中包含了哪三個元件
2023-03-07
元件
在Vue中使用marked.js解析Markdown,生成目錄,執行程式碼示例
2020-11-01
VueJS行程
[原始碼解析]深度學習利器之自動微分(3) --- 示例解讀
2021-10-16
原始碼深度學習
Android 原始碼分析之 EventBus 的原始碼解析
2018-08-06
Android原始碼
NodeJS stream 流原理分析（附原始碼）
2018-09-18
NodeJS原始碼
Java Timer原始碼解析（定時器原始碼解析）
2018-10-20
Java原始碼定時器
【原始碼解析】- ArrayList原始碼解析，絕對詳細
2021-04-15
原始碼
Flink 非對齊Unaligned的checkpoint（原始碼分析）
2022-01-12
原始碼
dl4j-gans: Deeplearning4j生成對抗網路GNA的示例原始碼
2022-03-24
原始碼
Graphx 原始碼剖析-圖的生成
2021-09-09
原始碼
【原始碼分析】XXL-JOB的執行器的註冊流程
2023-04-22
原始碼
Flink1.7.2 DataStream Operator 示例
2019-03-08
AST
設計模式系列（圖文解析，附帶原始碼） - 生成器
2020-10-16
設計模式原始碼
[原始碼分析]從"UDF不應有狀態" 切入來剖析Flink SQL程式碼生成 (修訂版)
2020-04-29
原始碼SQL

Flink 原始碼解析--Stream、Job、ExecutionGraph的生成示例

應用程式示例2：

相關文章