ETLCloud結合kafka的資料整合

RestCloud發表於2024-04-10

一、ETLCloud中實時資料整合的使用

在ETLCloud中資料整合有兩種方式,一種是離線資料整合,另一種便是我們今天所要介紹的實時資料整合了,兩者的區別從名字便可以得知,前者處理的資料是離線的沒有時效性的,後者的資料是有時效性的,所以要根據自己需要的場景來使用這兩個模組。

ETLCloud結合kafka的資料整合

實時資料整合常見的場景有,CDC監聽,Kafka監聽,MQ監聽(商業版),今天我們結合一些常用的場景來演示一下Kafka監聽的使用。

二、場景演示

在實時資料整合中有一個重要的物件便是監聽器,顧名思義是用來監聽資料的變動的,一旦資料有變動那麼監聽器就能監聽到並對資料進行原先設定好的方式去處理。

1、建立監聽器

點選實時資料整合模組,進入模組首頁,選擇Kafka監聽器,點選新增監聽器

ETLCloud結合kafka的資料整合

2、監聽器的配置,Kafka的資料來源我們需要在資料來源管理中去新建

資料來源選擇Kafka然後新建資料來源填寫服務相關資訊即可。

ETLCloud結合kafka的資料整合

監聽器配置圖如下:

選擇我們剛剛建立好的Kafka資料來源,點選載入主題列表按鈕,便可以獲取所有的消費主題,填寫消費分組,資料來源選擇其他topic資料(監聽的是Kafka中的主題)

ETLCloud結合kafka的資料整合

接收端的配置:

我們可以選擇把資料傳給指定流程或者直接輸出到目標庫中,我們選擇傳輸給ETL流程 ETLCloud結合kafka的資料整合

3、建立接收實時資料的離線流程或目標資料庫

我們可以建立一個簡單的流程,將資料進行輸出,流程如下。

ETLCloud結合kafka的資料整合

4、向Kafka傳送訊息,offersetExploer工具連線Kafka並找到所要監聽的主題,進行訊息傳送。

ETLCloud結合kafka的資料整合

5、傳送後回到我們之前建立好的流程檢視流程日誌,可以發現監聽到的資料已經傳送到流程中了。

ETLCloud結合kafka的資料整合

同理如果是將資料傳輸到目標資料庫,只需要配置好目標資料來源即可

ETLCloud結合kafka的資料整合

三、總結

實時資料整合是ETLCloud中重要的功能模組之一,與離線資料整合相對應。實時資料整合能夠處理具有時效性的資料,常見的場景包括CDC監聽、Kafka監聽以及MQ監聽等。

在實時資料整合中,監聽器是一個重要的物件,用於監聽資料的變動,一旦資料有變動,監聽器就會觸發相應的處理操作。具體操作包括建立監聽器、配置Kafka資料來源、設定接收端配置等步驟。

對於Kafka監聽器的配置,需要先在資料來源管理中新建Kafka資料來源並填寫相關資訊,然後配置監聽器以選擇消費主題、填寫消費分組等。接收端的配置可以選擇傳輸給ETL流程或直接輸出到目標資料庫。

建立接收實時資料的離線流程或目標資料庫是實時資料整合的關鍵步驟之一,透過簡單的流程可以將監聽到的資料進行輸出或傳輸至目標資料庫。

最後,透過訊息傳送工具向Kafka傳送訊息,然後檢視流程日誌以確認監聽到的資料是否已經傳送到流程中。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70005218/viewspace-3012109/,如需轉載,請註明出處,否則將追究法律責任。

相關文章