專案地址:https://github.com/tal-tech/cds
ClickHouse是一個用於聯機分析(OLAP)的列式資料庫管理系統(DBMS)。它有著優異的效能,可以快速部署和執行。
不過要想使用ClickHouse搭建起數倉用於資料分析,一個重要的問題就是資料如何進入ClickHouse?
我們希望資料來源的變化能夠自動實時地被同步到ClickHouse,而且支援方便的動態的新增新的資料來源(新的資料庫,表),
能夠自動的生成對應資料來源的schema。
go-zero 團隊使用go語言圍繞ClickHouse開發了一些方便的元件與服務。
我們得到了下面這樣的資料同步設計
該資料同步系統大致由以下三部分組成
- DM 全量同步服務 github.com/tal-tech/cds/dm
- RTU 實時增量同步服務 github.com/tal-tech/cds/rtu
- Galaxy 網頁控制檯服務 github.com/tal-tech/cds/galaxy
流程如下:
- 使用者可以在網頁控制檯新增資料來源,自動生成DDL,新增同步任務,該任務會被髮送到etcd。
- dm會收到全量同步的通知,執行歷史資料的全量同步工作。
- 之後網頁控制檯服務會指定connector開啟資料庫log監聽工作,資料會進入kafka。
- 監聽etcd叢集的RTU實時增量同步服務服務會發現有新的任務,RTU自動領取任務,到kafka消費資料並同步至ClickHouse。
上述服務的開發使用了go語言。藉助於go-zero中的工具包,如goctl等,
我們快速實現了它。它還加入了支援自適應mongoDB結構變化,支援資料分表等。
我們相信這是go語言與ClickHouse探索大資料的一個不錯的起點,我們希望有更多的人能夠參與進來。
CDS專案地址:https://github.com/tal-tech/cds
go-zero專案地址:https://github.com/tal-tech/go-zero
歡迎大家 star 並加入微信社群 ?