DataPipeline「自定義」資料來源,解決複雜請求邏輯外部資料獲取難題

DataPipeline發表於2020-02-13


A公司專注為各種規模和複雜程度的金融投資機構提供一體化投資管理系統系統主要由投資組合管理、交易執行管理、實時監控管理、風險管理等功能模組構成。 隨著企業管理產品數量的不斷增多,大量資料分散在各券商系統中且資料儲存格式各異,難以管理和利用。


為幫助投資機構最大限度地提高投資決策和運營效率,A公司需要實時監控自己的使用者在各個交易平臺的基本資訊、餘額、訂單交易情況,並根據分析結果及時給出投資建議。

A公司的這種情況並不是個例。目前,越來越多的企業在資料傳輸的需求場景中,除了從上游不同業務資料庫中實時、定時分配到下游系統之外, 還有許多需求場景需要從外部合作商、供應商中獲取業務資料。

如果想要每天從企業外部系統中獲取資料,通常會採用什麼方法呢?

一些使用者給出的答案是: 根據需要編寫不同的指令碼,手動呼叫第三方系統提供的API介面,在抓取資料後,自行編寫清洗邏輯,最後實現資料落地。


然而隨著第三方系統的日益增多,如果按原有方式會帶來過多的指令碼維護成本和資料傳輸任務管理成本。為解決上述痛點, DataPipeline在新版本的資料同步任務中增加了 「自定義資料來源」功能,使用者可以透過上傳JAR包的方式自定義獲取資料邏輯。新功能支援任意的MySQL、Oracle、SQLServer、Hive、HBase等常見資料來源,冷門資料庫等(如騰訊雲TDSQL),常用的API呼叫,使用者自定義的SDK,或者透過Python抓取資料等。


「自定義資料來源」提供的價值

透過「自定義資料來源」,使用者可以:

  • 統一管理資料獲取邏輯,快速合併JAR減少指令碼開發量。
  • 當上遊發生變化時,不需要對每一個資料傳輸任務進行調整。
  • 可結合DataPipeline的資料解析功能、清洗工具和目標初始化功能減少整體開發量,並提供監控和預警。


如何使用「自定義資料來源」功能

使用者可透過以下四步使用「自定義資料來源」功能:

  • 建立自定義資料來源,並上傳JAR包(或調取已上傳過的JAR包)。
  • 選擇資料存放的目的地。
  • 使用清洗工具完成資料解析邏輯。
  • 配置目的地表結構,即可完成所有配置。


關於「自定義資料來源」的核心頁面:

1. 使用者在選擇自定義資料來源和目的地後,需要在讀取設定步驟中上傳JAR包

  • 使用者可以上傳新的JAR包,也可以點選拖放框選擇歷史已經上傳的JAR用作本次任務。

  • 使用者透過填充類路徑和讀取資料所需要的配置資訊即可完成資料來源讀取邏輯。



2. 使用者可以在一個任務中選擇一個或多個讀取物件,每個讀取物件可以對映到目標表的表中



3. 完成讀取設定後,在寫入設定步驟中先確定每個讀取物件的資料解析邏輯


  • DataPipeline會提供JSON解析樣例,使用者也可以參考樣例,自定義解析邏輯。

  • 「樣例資料」模組會顯示透過讀取物件配置獲取的資料。
  • 完成清洗指令碼內容後,在「執行結果」模組點選「試執行」即可看到最終寫入到目的地的資料格式。



4. 完成解析邏輯後,使用者可以手動新增名稱並選擇對應的資料型別 ,來完成目的地表結構



完成所有配置後點選「立即啟用」即可執行資料傳輸任務。


DataPipeline每一次版本的迭代都凝聚了團隊對企業資料使用需求的深入思索,其它新功能還在路上,很快就會跟大家見面了,希望能夠切實幫助大家更敏捷高效地獲取資料。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556703/viewspace-2675368/,如需轉載,請註明出處,否則將追究法律責任。

相關文章