Flink SQL FileSystem Connector 分割槽提交與自定義小檔案合併策略
本文先通過原始碼簡單過一下分割槽提交機制的兩個要素——即觸發(trigger)和策略(policy)的實現,然後用合併小檔案的例項說一下自定義分割槽提交策略的方法。
PartitionCommitTrigger
在最新的 Flink SQL 中,FileSystem Connector 原生支援資料分割槽,並且寫入時採用標準 Hive 分割槽格式,如下所示。
path
└── datetime=2019-08-25
└── hour=11
├── part-0.parquet
├── part-1.parquet
└── hour=12
├── part-0.parquet
└── datetime=2019-08-26
└── hour=6
├── part-0.parquet
那麼,已經寫入的分割槽資料何時才能對下游可見呢?這就涉及到如何觸發分割槽提交的問題。根據官方文件,觸發引數有以下兩個:
-
sink.partition-commit.trigger:可選 process-time(根據處理時間觸發)和 partition-time(根據從事件時間中提取的分割槽時間觸發)。
-
sink.partition-commit.delay:分割槽提交的時延。如果 trigger 是 process-time
相關文章
- Flink的分割槽策略
- sql mode 和使用者自定義分割槽SQL
- linux下檔案分割與合併 (轉)Linux
- linux下檔案分割與合併(轉)Linux
- 超級檔案分割《合併》機(分割大檔案)
- 合併分割槽(coalesce partition)
- Kafka - 自定義分割槽器Kafka
- 【實驗】【PARTITION】RANGE分割槽表合併分割槽
- Oracle 11g 分割槽拆分與合併Oracle
- Linux檔案分割與合併:split&catLinux
- Linux - 檔案的分割(split)與合併(cat)Linux
- win10怎麼合併分割槽_win10合併分割槽的方法Win10
- 在不刪除檔案的前提下合併硬碟分割槽硬碟
- win10分割槽合併保留資料怎麼操作_win10硬碟合併分割槽並保留檔案詳細步驟Win10硬碟
- 全面學習分割槽表及分割槽索引(11)--合併表分割槽索引
- mac分割槽合併APFS容器Mac
- MapReduce(三):分割槽、排序、合併排序
- java快速分割及合併檔案Java
- shell 檔案合併 去重 分割
- Hive小檔案合併Hive
- hadoop mapreducez自定義分割槽Hadoop
- spark:自定義分割槽,自定義排序,spark與jdbc,廣播變數等Spark排序JDBC變數
- MyISAM分割槽表遷移 && 合併
- MapReduce之自定義分割槽器Partitioner
- 《Flink SQL任務自動生成與提交》後續:修改flink原始碼實現kafka connector BatchModeSQL原始碼KafkaBAT
- win10u盤分割槽怎麼合併 win10如何把U分割槽合併Win10
- Win10系統怎麼合併磁碟分割槽 win10合併磁碟分割槽的方法Win10
- Liunx 磁碟分割槽與檔案掛載
- win10分割槽合併不了的解決方法_win10分割槽合併不了如何處理Win10
- 使用 7-Zip 進行檔案分割與合併(命令列示例)命令列
- sql server 小記——分割槽表(上)SQLServer
- Flink-Kafka-Connector Flink結合Kafka實戰Kafka
- 資料檔案合併與拆分
- 自定義的單元格合併
- Pandas之EXCEL資料讀取/儲存/檔案分割/檔案合併Excel
- MapReduce程式設計例項之自定義分割槽程式設計
- Hive表小檔案合併方法總結Hive
- iceberg合併小檔案衝突測試