資料融合重磅功能丨一對多實時分發、批次讀取模式
為能更好地服務使用者,DataPipeline版本支援:
-
寫入Hive目的地時,支援選擇任意目標表欄位作為分割槽欄位;
-
可將Hive作為資料來源定時分發到多個目的地。
推出背景
在歷史版本中,DataPipeline每個任務只允許有一個資料來源和目的地,從資料來源讀取的資料只允許寫入到一張目標表。這會導致 無法完美地支援客戶的兩個需求場景:
需求場景一:
客戶從一個API資料來源或者從KafkaTopic獲取JSON資料後,透過高階清洗解析寫入到目的地多個表或者多個資料庫中,但歷史版本無法同時寫入到多個目的地,只能建立多個任務。這會導致資料來源端會重複獲取同一批資料(而且無法完全保證資料一致性),浪費資源,並且無法統一管理。
需求場景二:
客戶希望建立一個資料任務,並從一個關係型資料庫表實時(或定時)分發到多個資料目的地。在歷史版本中,使用者需要建立多個任務來解決,但建立多個任務執行該需求時會重複讀取資料來源同一張表的資料,比較浪費資源。客戶更希望只讀取一次便可直接解析為多個表,完成該需求場景。
新功能解決的問題:
1. 使用者在一個資料任務中選擇一個資料來源後,允許選擇多個目的地或者多個表作為寫入物件,而不需要建立多個任務來實現該需求。
2. 使用者在單個任務中針對每個目的地的型別和特性,可以單獨設定各個目的地表結構和寫入策略,大大減少了資料來源讀取次數和管理成本。
動態分割槽欄位。歷史版本中,使用者只允許選擇時間型別欄位作為分割槽欄位。在真實的客戶場景中除了按照時間做分割槽策略外,客戶希望指定Hive表任意欄位作為分割槽欄位。
需求場景二:
客戶希望除了以Hive作為目的地,定時寫入資料到Hive外,客戶還希望使用DataPipeline可以定時分發Hive表資料到各個應用系統,解決業務需求。
新功能解決的問題:
1. 允許使用者指定目的地Hive表中任何欄位作為分割槽欄位,並支援選擇多個分割槽欄位。
需求場景:
關係型資料庫(以MySQL為例)的表沒有許可權讀取BINLOG,但在業務上客戶需要定期同步增量資料,在許可權只有SELECT情況下,需要做到增量資料的同步任務。
新功能解決的問題:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556703/viewspace-2675388/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- TensorFlow讀取CSV資料(批次)
- hutool分批次讀取excel資料Excel
- 建造者模式讀取資料模式
- 實時資料融合之道:博觀約取,價值驅動
- 一個Golden Gate實時資料分發的例子Go
- MyBatis 查詢資料時屬性中多對一的問題(多條資料對應一條資料)MyBatis
- 一個批次爬取微博資料的神器
- 通過STANDBY資料庫實現讀寫分離時索引過多的問題資料庫索引
- Python批次讀取HDF多波段柵格資料並繪製像元直方圖Python直方圖
- 透過 adc 實現一個IO對多個按鍵讀取
- 多源異構資料來源融合怎麼做!一文解讀(1)
- Sql group by 分組取時間最新的一條資料SQL
- 分頁按頁碼讀取redis資料Redis
- 多種方式讀取 MySQL 資料庫配置MySql資料庫
- ssm讀寫分離多資料來源SSM
- 實時資料融合之法,穩定高容錯
- 大資料分散式儲存的部署模式:分離式or超融合大資料分散式模式
- 在讀取資料時拼接圖片域名
- 處理pandas讀取資料為nan時NaN
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- ES 實現實時從Mysql資料庫中讀取熱詞,停用詞MySql資料庫
- 一文讀懂大資料實時計算大資料
- 使用 Infinispan 快取功能支援多個 Redis 資料庫快取Redis資料庫
- Spring Boot + Mybatis 多資料來源配置實現讀寫分離Spring BootMyBatis
- 大資料“重磅炸彈”:實時計算框架 Flink大資料框架
- 深入理解 EF Core:EF Core 讀取資料時發生了什麼?
- mysql 時間型別秒級資料,取分鐘資料方案MySql型別
- 讀取CSV資料
- excel 資料讀取Excel
- 多商戶商城開發(功能)丨多商戶商城系統開發(開發方案)丨多商戶商城成品原始碼系統原始碼
- java通過相對路徑讀取properties資料Java
- 汪星球系統技術開發丨任務模式丨汪星球開發功能詳情模式
- 如何優雅地實現多資料庫的發件箱模式資料庫模式
- sql 多組條資料取最新的一條資料SQL
- 實用教程丨如何將實時資料顯示在前端電子表格中(一)前端
- 基於MSSQLSQL資料庫大批次資料的分塊分頁查詢SQL資料庫
- DataPipeline CPO 陳雷:實時資料融合之法,便捷可管理API
- 一段讀取資料表的例子