開源專案名稱:DataX Web
開源專案負責人:@WeiYe-Jing
開源專案簡介:離線資料同步工具
開源專案型別:個人開源專案
專案建立時間:2019 年 12 月
GitHub 資料:734 Star,365 Fork
地址:https://github.com/WeiYe-Jing...
專案介紹
DataX Web 是在 DataX 之上開發的分散式資料同步工具,提供簡單易用的操作介面,降低使用者使用DataX 的學習成本,縮短任務配置時間,避免配置過程中出錯。使用者可通過頁面選擇資料來源即可建立資料同步任務,RDBMS 資料來源可批量建立資料同步任務,支援實時檢視資料同步進度及日誌並提供終止同步功能,整合並二次開發 xxl-job 可根據時間、自增主鍵增量同步資料。
任務“執行器”支援叢集部署,支援執行器多節點路由策略選擇,支援超時控制、失敗重試、失敗告警、任務依賴、執行器CPU,記憶體,負載的監控等等。後續還將提供更多的資料來源支援、資料轉換UDF、表結構同步、資料同步血緣等更為複雜的業務場景。
專案自薦
DataX 是一個異構資料來源離線同步工具,致力於 RDBMS 關係型資料庫、NoSQL 資料儲存、無結構化資料儲存、時間序列資料庫等各種異構資料來源之間穩定高效的資料同步功能。可以將 DataX 的同步過程理解為從源頭資料來源讀取資料的 Reader 外掛,以及向目標端寫入資料的 Writer 外掛。
每個型別的資料來源都有自己的 Reader 和 Writer 外掛,每個外掛的配置方式也不盡相同,因此使用者在使用一款外掛前需要先了解該外掛的每個引數配置的含義,熟悉之後使用者需要手動編寫一份 JSON 檔案,檔案包含外掛的資料來源資訊,同步的欄位名,任務的執行引數等等,配置過程中也容易出錯,JSON 檔案也不方便管理,如果想在不同的機器執行還要將 JSON 檔案複製到對應節點,複雜一點的業務場景例如增量同步、同步依賴沒有其它指令碼的支援,DataX 難以施展拳腳。
為了解決這些問題,DataX Web 應運而生。
開源 7 個月以來專案發版 5 次,使用者群近 1000 人,並且一直在不斷完善與壯大開源社群,希望進一步培養以開發者為核心的社群生態。未來專案將繼續保持快速迭代並積極與周邊生態融合,打造一款大資料領域必不可少的資料同步利器。
思否推薦
資料是資訊社會的基礎,資料的儲存需要有資料庫來進行儲存,那麼資料之前的資訊流動需要怎樣的媒介?
DataX 作為異構資料來源離線同步工具,支援 RDBMS 關係型資料庫、NoSQL 資料儲存、無結構化資料儲存、時間序列資料庫等多種資料庫間的資料同步。拋去繁雜容易出錯的命令列介面,DataX 還提供了簡單易用的操作介面,降低使用者學習成本,縮短任務配置時間,避免配置過程中出錯。
該專案已入選「SFOSSP - 思否開源專案支援計劃」,我們希望藉助社群的資源對開源專案進行相關的宣傳推廣,並作為一個長期專案助力開源事業的發展,與廣大開發者共建開源新生態。
有意向的開源專案負責人或團隊成員,可通過郵箱提供相應的資訊(開源專案地址、專案介紹、團隊介紹、聯絡方式等),以便提升交流的效率。
聯絡郵箱:pr@segmentfault.com