Framework + plugin架構

papering發表於2024-09-21

DataX/introduction.md at master · alibaba/DataX · GitHub https://github.com/alibaba/DataX/blob/master/introduction.md

  • 為了解決異構資料來源同步問題,DataX將複雜的網狀的同步鏈路變成了星型資料鏈路,DataX作為中間傳輸載體負責連線各種資料來源。當需要接入一個新的資料來源的時候,只需要將此資料來源對接到DataX,便能跟已有的資料來源做到無縫資料同步。

  • 當前使用現狀

    DataX在阿里巴巴集團內被廣泛使用,承擔了所有大資料的離線同步業務,並已持續穩定執行了6年之久。目前每天完成同步8w多道作業,每日傳輸資料量超過300TB。

此前已經開源DataX1.0版本,此次介紹為阿里雲開源全新版本DataX3.0,有了更多更強大的功能和更好的使用體驗。Github主頁地址:https://github.com/alibaba/DataX

DataX本身作為離線資料同步框架,採用Framework + plugin架構構建。將資料來源讀取和寫入抽象成為Reader/Writer外掛,納入到整個同步框架中。

  • Reader:Reader為資料採集模組,負責採集資料來源的資料,將資料傳送給Framework。
  • Writer: Writer為資料寫入模組,負責不斷向Framework取資料,並將資料寫入到目的端。
  • Framework:Framework用於連線reader和writer,作為兩者的資料傳輸通道,並處理緩衝,流控,併發,資料轉換等核心技術問題。

相關文章