Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略

文宇肅然發表於2020-10-31

原文網址 : https://blog.csdn.net/wenyusuran/article/details/108317599

本文先通過原始碼簡單過一下分割槽提交機制的兩個要素——即觸發（trigger）和策略（policy）的實現，然後用合併小檔案的例項說一下自定義分割槽提交策略的方法。

PartitionCommitTrigger

在最新的 Flink SQL 中，FileSystem Connector 原生支援資料分割槽，並且寫入時採用標準 Hive 分割槽格式，如下所示。

path└── datetime=2019-08-25    └── hour=11        ├── part-0.parquet        ├── part-1.parquet    └── hour=12        ├── part-0.parquet└── datetime=2019-08-26    └── hour=6        ├── part-0.parquet

那麼，已經寫入的分割槽資料何時才能對下游可見呢？這就涉及到如何觸發分割槽提交的問題。根據官方文件，觸發引數有以下兩個：

sink.partition-commit.trigger：可選 process-time（根據處理時間觸發）和 partition-time（根據從事件時間中提取的分割槽時間觸發）。
sink.partition-commit.delay：分割槽提交的時延。如果 trigger 是 process-time

Flink的分割槽策略
2023-02-24
hadoop mapreducez自定義分割槽
2018-09-03
Hadoop
Kafka - 自定義分割槽器
2023-03-15
Kafka
《Flink SQL任務自動生成與提交》後續：修改flink原始碼實現kafka connector BatchMode
2022-01-12
SQL原始碼KafkaBAT
win10怎麼合併分割槽_win10合併分割槽的方法
2019-11-25
Win10
mac分割槽合併APFS容器
2019-01-17
Mac
shell 檔案合併去重分割
2020-09-25
java快速分割及合併檔案
2021-09-09
Java
spark:自定義分割槽，自定義排序，spark與jdbc，廣播變數等
2018-10-13
Spark排序JDBC變數
win10分割槽合併保留資料怎麼操作_win10硬碟合併分割槽並保留檔案詳細步驟
2020-06-16
Win10硬碟
MapReduce之自定義分割槽器Partitioner
2020-07-21
Liunx 磁碟分割槽與檔案掛載
2020-10-12
win10u盤分割槽怎麼合併 win10如何把U分割槽合併
2020-10-06
Win10
小程式檔案館——自定義元件
2018-11-02
元件
Flink-Kafka-Connector Flink結合Kafka實戰
2019-03-03
Kafka
使用 7-Zip 進行檔案分割與合併（命令列示例）
2024-11-13
命令列
用檔案新增Swap分割槽
2018-05-31
Pandas之EXCEL資料讀取/儲存/檔案分割/檔案合併
2019-01-30
Excel
資料檔案合併與拆分
2020-11-19
Hive和Spark分割槽策略
2021-06-27
HiveSpark
Flink Kafka Connector與Exactly Once剖析
2019-09-18
Kafka
hive迷案之消失的分割槽檔案
2021-09-09
Hive
win10分割槽合併不了的解決方法_win10分割槽合併不了如何處理
2020-02-14
Win10
Hive表小檔案合併方法總結
2020-10-17
Hive
iceberg合併小檔案衝突測試
2022-02-24
SQL SERVER資料庫檔案刪除、分割槽格式化解決方案
2019-06-24
SQLServer資料庫
SQL SERVER之分割槽表
2019-04-17
SQLServer
Python批次分割Excel後逐行做差、合併檔案的方法
2024-09-03
PythonExcel
Linux擴容後，邏輯分割槽大小與檔案大小不符
2024-04-11
Linux
Spark優化之小檔案是否需要合併?
2020-08-13
Spark優化
Linux 磁碟分割槽及檔案系統管理
2021-01-04
Linux
flink connector 之FlinkKafkaProducer
2019-03-01
Kafka
Flink 自定義維表
2019-05-07
HGDB的分割槽表實現SQL Server的分割槽檢視
2021-11-22
SQLServer
php 自定義配置檔案
2018-11-05
PHP
1.11.2 flinksql自定義sls connector 聯結器
2020-09-29
SQL
Oracle分割槽表基礎運維-05組合分割槽
2020-05-15
Oracle運維
VUE3 之全域性 Mixin 與自定義屬性合併策略 - 這個系列的教程通俗易懂，適合新手
2022-04-05
Vue

Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略 ​

相關文章

Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略