Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略
本文先通過原始碼簡單過一下分割槽提交機制的兩個要素——即觸發(trigger)和策略(policy)的實現,然後用合併小檔案的例項說一下自定義分割槽提交策略的方法。
PartitionCommitTrigger
在最新的 Flink SQL 中,FileSystem Connector 原生支援資料分割槽,並且寫入時採用標準 Hive 分割槽格式,如下所示。
path
└── datetime=2019-08-25
└── hour=11
├── part-0.parquet
├── part-1.parquet
└── hour=12
├── part-0.parquet
└── datetime=2019-08-26
└── hour=6
├── part-0.parquet
那麼,已經寫入的分割槽資料何時才能對下游可見呢?這就涉及到如何觸發分割槽提交的問題。根據官方文件,觸發引數有以下兩個:
-
sink.partition-commit.trigger:可選 process-time(根據處理時間觸發)和 partition-time(根據從事件時間中提取的分割槽時間觸發)。
-
sink.partition-commit.delay:分割槽提交的時延。如果 trigger 是 process-time
相關文章
- Flink的分割槽策略
- hadoop mapreducez自定義分割槽Hadoop
- Kafka - 自定義分割槽器Kafka
- 《Flink SQL任務自動生成與提交》後續:修改flink原始碼實現kafka connector BatchModeSQL原始碼KafkaBAT
- win10怎麼合併分割槽_win10合併分割槽的方法Win10
- mac分割槽合併APFS容器Mac
- shell 檔案合併 去重 分割
- java快速分割及合併檔案Java
- spark:自定義分割槽,自定義排序,spark與jdbc,廣播變數等Spark排序JDBC變數
- win10分割槽合併保留資料怎麼操作_win10硬碟合併分割槽並保留檔案詳細步驟Win10硬碟
- MapReduce之自定義分割槽器Partitioner
- Liunx 磁碟分割槽與檔案掛載
- win10u盤分割槽怎麼合併 win10如何把U分割槽合併Win10
- 小程式檔案館——自定義元件元件
- Flink-Kafka-Connector Flink結合Kafka實戰Kafka
- 使用 7-Zip 進行檔案分割與合併(命令列示例)命令列
- 用檔案新增Swap分割槽
- Pandas之EXCEL資料讀取/儲存/檔案分割/檔案合併Excel
- 資料檔案合併與拆分
- Hive和Spark分割槽策略HiveSpark
- Flink Kafka Connector與Exactly Once剖析Kafka
- hive迷案之消失的分割槽檔案Hive
- win10分割槽合併不了的解決方法_win10分割槽合併不了如何處理Win10
- Hive表小檔案合併方法總結Hive
- iceberg合併小檔案衝突測試
- SQL SERVER資料庫檔案刪除、分割槽格式化解決方案SQLServer資料庫
- SQL SERVER之分割槽表SQLServer
- Python批次分割Excel後逐行做差、合併檔案的方法PythonExcel
- Linux擴容後,邏輯分割槽大小與檔案大小不符Linux
- Spark優化之小檔案是否需要合併?Spark優化
- flink connector 之FlinkKafkaProducerKafka
- Linux 磁碟分割槽及檔案系統管理Linux
- Flink 自定義維表
- HGDB的分割槽表實現SQL Server的分割槽檢視SQLServer
- php 自定義配置檔案PHP
- 1.11.2 flinksql自定義sls connector 聯結器SQL
- Oracle分割槽表基礎運維-05組合分割槽Oracle運維
- VUE3 之 全域性 Mixin 與 自定義屬性合併策略 - 這個系列的教程通俗易懂,適合新手Vue