Flink的架構

Panda_XiaoXi發表於2019-01-02

原文網址 : https://juejin.im/post/5c2c6c35e51d452429745865

Apache Flink是一個分散式框架處理引擎，用於對無界和有界資料流進行有狀態計算。Flink執行在所有常見的叢集環境中執行，高效率的執行計算。

處理的資料

無界資料流：有一個開始但沒有定義的結束。它們不會在生成時終止並提供資料。必須持續處理無界流，即必須在攝取事件後立即處理事件。無法等待所有輸入資料到達，因為輸入是無界的，並且在任何時間點都不會完成。處理無界資料通常要求以特定順序（例如事件發生的順序）攝取事件，以便能夠推斷結果完整性。（即流資料）

有界資料流：具有定義的開始和結束。可以在執行任何計算之前通過攝取所有資料來處理有界流。處理有界流不需要有序攝取，因為可以始終對有界資料集進行排序。（即批處理）

如下圖：

和其他大資料平臺的部署及相容

Apache Flink是一個分散式系統，需要計算資源才能執行應用程式。Flink與所有常見的叢集資源管理器（如Hadoop YARN，Apache Mesos和Kubernetes）整合，但也可以設定為作為獨立叢集執行。

主要處理的資料狀態

Flink旨在以任何規模執行有狀態流應用程式。應用程式可以並行化為數千個在叢集中分佈和同時執行的任務。（有狀態和無狀態的區別-> 有狀態物件(Stateful Bean)，就是有例項變數的物件，可以儲存資料，是非執行緒安全的。無狀態物件(Stateless Bean)，就是沒有例項變數的物件，不能儲存資料，是不變類，是執行緒安全的。）

對資料狀態的一些優化

有狀態Flink應用程式針對本地狀態訪問進行了優化。任務狀態始終保留在記憶體中，或者，如果狀態大小超過可用記憶體，則儲存在訪問高效的磁碟上資料結構中。因此，任務通過訪問本地（通常是記憶體中）狀態來執行所有計算，從而產生非常低的處理延遲。Flink通過定期和非同步檢查本地狀態到持久儲存來保證在出現故障時的一次狀態一致性。如下圖：

支援的API

Flink提供三種的API：

SQL和Table API Flink有兩個關係API，Table API和SQL。這兩個API都是用於批處理和流處理的統一API，即，在無界的實時流或有界的記錄流上以相同的語義執行查詢，併產生相同的結果。Table API和SQL利用Apache Calcite進行解析，驗證和查詢優化。它們可以與DataStream和DataSet API無縫整合，並支援使用者定義的標量，聚合和表值函式。以下SQL用於對點選流進行會話並計算每個會話的點選次數的SQL查詢：
```
  SELECT userId, COUNT(*)
  FROM clicks
  GROUP BY SESSION(clicktime, INTERVAL '30' MINUTE), userId
複製程式碼
```

ProcessFunctions是Flink提供的最具表現力的功能介面。Flink提供ProcessFunctions來處理來自視窗中分組的一個或兩個輸入流或事件的單個事件。ProcessFunctions提供對時間和狀態的細粒度控制。ProcessFunction可以任意修改其狀態並註冊將在未來觸發回撥函式的定時器。因此，ProcessFunctions可以實現許多有狀態事件驅動應用程式所需的複雜的每事件業務邏輯。以下示例顯示了KeyedProcessFunction對a KeyedStream和match START以及END事件進行操作的示例。當一個START被接收的事件，則該函式在記住其狀態時間戳和計時在四個小時的計時器。如果END在計時器觸發之前收到事件，則該函式計算事件END和START事件之間的持續時間，清除狀態並返回值。否則，計時器只會觸發並清除狀態。

  /**
   * 匹配流入的START和END事件，並計算兩個元素的時間的差；
   *  第一個String欄位是鍵屬性,第二個String屬性標記START和END事件。
   */
  public static class StartEndDuration
      extends KeyedProcessFunction<String, Tuple2<String, String>, Tuple2<String, Long>> {
  
    private ValueState<Long> startTime;
  
    @Override
    public void open(Configuration conf) {
      // 獲取狀態處理
      startTime = getRuntimeContext()
        .getState(new ValueStateDescriptor<Long>("startTime", Long.class));
    }
  
    @Override
    public void processElement(
        Tuple2<String, String> in,
        Context ctx,
        Collector<Tuple2<String, Long>> out) throws Exception {
  
      switch (in.f1) {
        case "START":
          // 如果接受到一個開始事件，則設定開始時間
          startTime.update(ctx.timestamp());
          // 註冊一個計時器，從開始時間開始的四個小時內
          ctx.timerService()
            .registerEventTimeTimer(ctx.timestamp() + 4 * 60 * 60 * 1000);
          break;
        case "END":
          // 發出開始和結束事件之間的持續時間
          Long sTime = startTime.value();
          if (sTime != null) {
            out.collect(Tuple2.of(in.f0, ctx.timestamp() - sTime));
            // 清除狀態
            startTime.clear();
          }
        default:
          // do nothing
      }
    }
  
    /** 計時器觸發時呼叫 */
    @Override
    public void onTimer(
        long timestamp,
        OnTimerContext ctx,
        Collector<Tuple2<String, Long>> out) {
  
      // 超時時，清除狀態
      startTime.clear();
    }
  }
複製程式碼

DataStream API所述的資料流中的API通過查詢外部資料儲存提供了許多常見的流處理操作。資料流API可用於Java和Scala和基於功能，如map()，reduce()和aggregate()。可以通過擴充套件介面或Java或Scala lambda函式來定義函式。以下示例顯示如何對點選流進行會話並計算每個會話的點選次數。

  // 對點選流進行會話並計算每個會話的點選次數
  DataStream<Click> clicks = ...
  
  DataStream<Tuple2<String, Long>> result = clicks
    .map(
      new MapFunction<Click, Tuple2<String, Long>>() {
        @Override
        public Tuple2<String, Long> map(Click click) {
          return Tuple2.of(click.userId, 1L);
        }
      })
    // 定義userId的鍵是0
    .keyBy(0)
    // 定義30分鐘的會話間隙
    .window(EventTimeSessionWindows.withGap(Time.minutes(30L)))
    // 計算每個會話的點選數
    .reduce((a, b) -> Tuple2.of(a.f0, a.f1 + b.f1));複製程式碼

Flink 的執行架構詳細剖析
2021-11-04
架構
Apache Flink X Apache Doris 構建極速易用的實時數倉架構
2023-03-16
Apache架構
讀Flink原始碼談設計：FileSystemConnector中的整潔架構
2022-03-08
原始碼架構
實時計算Flink——獨享模式系統架構
2018-11-14
模式架構
袋鼠雲：基於Flink構建實時計算平臺的總體架構和關鍵技術點
2021-07-16
架構
架構師眼中的高併發架構
2019-03-29
架構
架構設計之架構的演變
2024-06-15
架構
懶松鼠Flink-Boot(Flink+Spring):一款將Flink與Spring生態完美融合的腳手架工程
2020-12-09
bootSpring
架構之:serverless架構
2021-07-13
架構Server
saltstack的架構
2024-03-18
架構
MySQL的架構
2021-01-13
MySql架構
架構師眼裡的高併發架構
2018-07-27
架構
SOA架構和微服務架構的區別
2021-01-19
架構微服務
【細品架構4/100】架構之架構切分
2018-06-30
架構
Apache Flink 不止於計算，數倉架構或興起新一輪變革
2022-01-12
Apache架構
亞馬遜CTO的架構之道-儉約架構師的成本優先架構原則
2024-09-14
亞馬遜架構
SaaS架構：流程架構分析
2024-09-20
架構
超融合架構與傳統IT架構的區別
2018-12-01
架構
Android架構系列-MVP架構的實際應用
2019-03-01
Android架構MVP
X86架構與ARM架構的區別：
2024-03-21
架構
分散式架構和微服務架構的區別
2024-03-25
分散式架構微服務
H5架構和原生架構的區別
2022-02-12
H5架構
唯品會架構師是如何實現架構重構的
2018-11-25
架構
單體架構&微服務架構&中臺服務架構
2018-09-06
架構微服務
架構師修煉之道（二）——架構？設計？架構師？
2019-07-22
架構
架構師的工作
2018-12-16
架構
架構中的“大象”
2023-11-10
架構
Hadoop的架構模型
2020-10-06
Hadoop架構模型
hbase 的架構分析
2022-09-18
架構
架構的搭建（一）
2021-07-03
架構
前端架構之小小node架構
2018-08-10
前端架構
單體架構到垂直架構
2024-03-27
架構
架構之:資料流架構
2021-06-18
架構
關於軟體架構和業務架構的思考
2018-05-23
架構
我的架構夢：（五十九） Apache Hadoop 架構與原理
2020-11-19
架構ApacheHadoop
基於SpringCloud的Microservices架構實戰案例-架構拆解
2018-04-06
SpringGCCloudROS架構
架構與思維：微服務架構的思想本質
2024-07-16
架構微服務
Kappa架構取代Hadoop的Lambda架構成為主流 - Waehner
2021-12-07
APP架構Hadoop