Kafka聯結器建立資料管道

哥不是小蘿莉發表於2021-11-28

原文網址 : https://www.cnblogs.com/smartloli/p/15616454.html

1.概述

最近，有同學留言諮詢Kafka聯結器的相關內容，今天筆者給大家分享一下Kafka聯結器建立資料管道的相關內容。

2.內容

Kafka聯結器是一種用於Kafka系統和其他系統之間進行功能擴充套件、資料傳輸的工具。通過Kafka聯結器能夠簡單、快速的將大量資料集移入到Kafka系統，或者從Kafka系統中移出，例如Kafka聯結器可以低延時的將資料庫或者應用伺服器中的指標資料收集到Kafka系統主題中。
另外，Kafka聯結器可以通過作業匯出的方式，將Kafka系統主題傳輸到二次儲存和查詢系統中，或者傳輸到批處理系統中進行離線分析。

2.1 使用場景

Kafka聯結器通常用來構建資料管道，一般來說有兩種使用場景。
1. 開始和結束的端點
第一種，將Kafka系統作為資料管道的開始和結束的端點。例如，將Kafka系統主題中的資料移出到HBase資料庫，或者把Oracle資料庫中的資料移入到Kafka系統。

2. 資料傳輸的中間介質
第二種，把Kafka系統作為一箇中間傳輸介質。例如，為了把海量日誌資料儲存到ElasticSearch中，可以先把這些日誌資料傳輸到Kafka系統中，然後再從Kafka系統中將這些資料移出到ElasticSearch進行儲存。

ElasticSearch是一個基於Lucene（Lucene是一款高效能、可擴充套件的資訊檢索工具庫）實現的儲存介質。它提供了一個分散式多使用者能力的全文搜尋引擎，基RESTful（一種軟體架構風格、設計風格，但是並非標準，只是提供了一組設計原則和約束條件）介面實現。

Kafka聯結器的存在，給資料管道帶來很重要的價值。例如，Kafka聯結器可以作為資料管道各個資料階段的緩衝區，有效的將消費者例項和生產者例項進行解耦。
Kafka系統解除耦合的能力、系統的安全性、資料處理的效率等方面均表現不俗，因而使用Kafka聯結器來構建資料管道是一個最佳的選舉。

2.2 特性和優勢

Kafka聯結器包含一些重要的特性，並且給資料管道提供了一個成熟穩定的框架。同時，Kafka聯結器還提供了一些簡單易用的工具庫，大大降低的開發人員的研發成本。
1. 特性
Kafka聯結器具體包含的特性如下。

通用框架：Kafka聯結器制定了一種標準，用來約束Kafka系統與其他系統整合，簡化了Kafka聯結器的開發、部署和管理；
單機模式和分散式模式：Kafka聯結器支援兩種模式，既能擴充套件到支援大型叢集的服務管理，也可以縮小到開發、測試等小規模的叢集；
REST介面：使用REST API來提交請求並管理Kafka叢集；
自動管理偏移量：通過聯結器的少量資訊，Kafka聯結器可以自動管理偏移量；
分散式和可擴充套件：Kafka聯結器是建立在現有的組管理協議上，通過新增更多的聯結器例項來水平擴充套件，實現分散式服務；
資料流和批量整合：利用Kafka系統已有的能力，Kafka聯結器是橋接資料流和批處理系統的一種理想的解決方案。

2. 優勢
在Kafka聯結器中有兩個核心的概念，它們分別是Source和Sink。其中Source負責將資料匯入到Kafka系統，而Sink則負責將資料從Kafka系統中進行匯出。
Source和Sink在實現資料匯入和匯出的過程被稱之聯結器，即Source聯結器和Sink聯結器。這兩種聯結器提供了對業務層面資料讀取和寫入的抽象介面，簡化了生命週期的管理工作。
在處理資料時，Source聯結器和Sink聯結器會初始化各自的任務，並將資料結構進行標準化的封裝。在實際應用場景中，不同的業務中的資料格式是不一樣的，因此，Kafka聯結器通過註冊資料結構，來解決資料格式驗證和相容性問題。
當資料來源發生變化時，Kafka聯結器會生成新的資料結構，通過不同的處理策略來完成對資料格式的相容。

2.3 核心概念

在Kafka聯結器中存在幾個核心的概念，它們分別是聯結器例項（Connectors）、任務數（Tasks）、事件執行緒數（Workers）、轉換器（Converters）。
1. 連機器例項
在Kafka聯結器中，聯結器例項決定了訊息資料的流向，即訊息資料從何處複製，以及將複製的訊息資料寫入到何處。
一個聯結器例項負責Kafka系統與其他系統之間的邏輯處理，聯結器例項通常以JAR包的形式存在，通過實現Kafka系統應用介面來完成。
2. 任務數
在分散式模式下，每一個聯結器例項可以將一個作業切分成多個任務（Task），然後再將任務分發到各個事件執行緒（Worker）中去執行。任務不會儲存當前的狀態資訊，通常由特定的Kafka主題來儲存，例如指定具體屬性offset.storage.topic和status.storage.topic的值來儲存。
在分散式模式中，會存在任務均衡的概念。當一個聯結器例項首次提交到Kafka叢集，所有的事件執行緒都會做一個任務均衡的操作，來保證每一個事件執行緒都執行差不多數量的任務，避免所有任務集中到某一個事件執行緒。
3. 事件執行緒
在Kafka系統中，聯結器例項和任務數都是邏輯層面的，需要有具體的執行緒來執行。在Kafka聯結器中，事件執行緒就是用來執行具體的任務，事件執行緒包含兩種，分別是單機模式和分散式模式。
4. 轉換器
轉換器會將位元組資料轉換成Kafka聯結器內部的格式，同時，也能將Kafka聯結器內部儲存的資料格式轉換成位元組資料。

3.操作聯結器

聯結器作為Kafka的一部分，隨著Kafka系統一起釋出，所以無需獨立安裝。在大資料應用場景下，建議在每臺物理機上安裝一個Kafka。根據實際需求，可以在一部分物理機上啟動Kafka例項（即代理節點Broker），在另一部分物理機上啟動聯結器。

在Kafka系統中，Kafka聯結器最終是以一個常駐程式的形式執行在後臺服務中，它提供了一個用來管理聯結器例項的REST API。預設情況下，服務埠地址是8083。

提示：
Representational State Transfer，簡稱REST，即表現層狀態轉移。REST是所有Web應用程式都應用遵守的一種規範。符合REST設計規範的應用介面，即REST API。

在Kafka聯結器中，REST API支援獲取、寫入、建立等介面，具體內容如下圖所示：

在Kafka系統中，Kafka聯結器目前支援兩種執行模式，它們分別是單機模式和分散式模式。

3.1 單擊模式匯入

在單機模式下，所有的事件執行緒都在一個單程式中執行。單機模式使用起來更加簡單，特別是在開發和定位分析問題的時候，使用單機模式會比較適合。
（1）編輯單機模式配置檔案。
在單機模式下，主題的偏移量是儲存在/tmp/connect.offsets目錄下，在$KAFKA_HOME/config目錄下有一個connect-standalone.properties檔案，通過設定offset.storage.file.filename屬性值來改變儲存路徑。
每次Kafka聯結器啟動時，通過載入$KAFKA_HOME/config/connect-file-source.properties配置檔案中的name屬性來獲取主題的偏移量，然後執行後續的讀寫操作。

# 設定聯結器名稱
name=local-file-source
# 指定聯結器類
connector.class=FileStreamSource
# 設定最大任務數
tasks.max=1
# 指定讀取的檔案
file=/tmp/test.txt
# 指定主題名
topic=connect_test

（2）在即將讀取的檔案中，新增資料，具體操作命令如下。
# 新建一個test.txt檔案並新增資料
[hadoop@dn1 ~]$ vi /tmp/test.txt

# 新增內容如下
kafka
hadoop
kafka-connect

# 儲存並退出

在使用Kafka檔案聯結器時，聯結器例項會監聽配置的資料檔案，如果檔案中有資料更新，例如：追加新的訊息資料。聯結器例項會及時處理新增的訊息資料。
（3）啟動Kafka聯結器單機模式的命令與啟動Kafka代理節點類似，具體操作命令如下。

# 啟動一個單機模式的聯結器
[hadoop@dn1 bin]$ ./connect-standalone.sh ../config/connect-standalone.properties\
../config/connect-file-source.properties

（4）使用Kafka系統命令檢視匯入到主題（connect_test）中的資料，具體操作命令如下。

# 使用Kafka命令檢視
[hadoop@dn1 bin]$ ./kafka-console-consumer.sh --zookeeper dn1:2181 --topic connect_test\
--from-beginning

3.2 分散式模式匯入

在分散式模式中，Kafka聯結器會自動均衡每個事件執行緒所處理的任務數。允許使用者動態的增加或者減少，在執行任務、修改配置、以及提交偏移量時能夠得到容錯保障。
在分散式模式中，Kafka聯結器會在主題中儲存偏移量、配置、以及任務狀態。建議手動建立儲存偏移量的主題，可以按需設定主題分割槽數和副本數。
需要注意的是，除了配置一些通用的屬性之外，還需要配置以下幾個重要的屬性。

group.id（預設值connect-cluster）：聯結器組唯一名稱，切記不能和消費者組名稱衝突；
config.storage.topic（預設值connect-configs）：用來儲存聯結器例項和任務配置，需要注意的是，該主題應該以單分割槽多副本的形式存在，建議手動建立，如果自動建立可能會存在多個分割槽；
offset.storage.topic（預設值connect-offsets）：用來儲存偏移量，該主題應該以多分割槽多副本的形式存在；
status.storage.topic（預設值connect-status）：用來儲存任務狀態，該主題建議以多分割槽多副本的形式存在。

在分散式模式中，Kafka聯結器配置檔案不能使用命令列，需要使用REST API來執行建立、修改和銷燬Kafka聯結器操作。
（1）編輯分散式模式配置檔案（connect-distributed.properties）

# 設定Kafka叢集地址
bootstrap.servers=dn1:9092,dn2:9092,dn3:9092
# 設定聯結器唯一組名稱
group.id=connect-cluster
# 指定鍵值對JSON轉換器類
key.converter=org.apache.kafka.connect.json.JsonConverter
value.converter=org.apache.kafka.connect.json.JsonConverter
# 啟用鍵值對轉換器
key.converter.schemas.enable=true
value.converter.schemas.enable=true
# 設定內部鍵值對轉換器, 例如偏移量、配置等
internal.key.converter=org.apache.kafka.connect.json.JsonConverter
internal.value.converter=org.apache.kafka.connect.json.JsonConverter
internal.key.converter.schemas.enable=false
internal.value.converter.schemas.enable=false
# 設定偏移量儲存主題
offset.storage.topic=connect_offsets
# 設定配置儲存主題
config.storage.topic=connect_configs
# 設定任務狀態儲存主題
status.storage.topic=connect_status
# 設定偏移量持久化時間間隔
offset.flush.interval.ms=10000

（2）建立偏移量、配置、以及任務狀態主題，具體操作命令如下。

# 建立配置主題
kafka-topics.sh --create --zookeeper dn1:2181 --replication-factor 3 --partitions 1\
 --topic connect_configs
# 建立偏移量主題
kafka-topics.sh --create --zookeeper dn1:2181 --replication-factor 3 --partitions 6\
--topic connect_offsets
# 建立任務狀態主題
kafka-topics.sh --create --zookeeper dn1:2181 --replication-factor 3 --partitions 6\
 --topic connect_status

（3）啟動分散式模式聯結器，具體操作命令如下。

# 啟動分散式模式聯結器
[hadoop@dn1 bin]$ ./connect-distributed.sh ../config/connect-distributed.properties

（4）執行REST API命令檢視當前Kafka聯結器的版本號，具體操作命令如下。

# 檢視聯結器版本號
[hadoop@dn1 ~]$ curl http://dn1:8083/

（5）檢視當前已安裝的聯結器外掛，通過瀏覽器訪問http://dn1:8083/connector-plugins地址來檢視

（6）建立一個新的聯結器例項，具體操作命令如下。

# 建立一個新的聯結器例項
[hadoop@dn1 ~]$ curl 'http://dn1:8083/connectors' -X POST -i –H\
 "Content-Type:application/json" -d '{"name":"distributed-console-source","config":\
{"connector.class":"org.apache.kafka.connect.file.FileStreamSourceConnector",\
"tasks.max":"1","topic":"distributed_connect_test",\
"file":"/tmp/distributed_test.txt"}}'

然後在瀏覽器訪問http://dn1:8083/connectors地址檢視當前成功建立的聯結器例項名稱，如下圖所示：

（7）檢視使用分散式模式匯入到主題（distributed_connect_test）中的資料，具體操作命令如下。

# 在檔案/tmp/distributed_test.txt中新增訊息資料
[hadoop@dn1 ~]$ vi /tmp/distributed_test.txt

# 新增如下內容（這條註釋不要寫入到distributed_test.txt檔案中）
distributed_kafka
kafka_connection
kafka
hadoop

# 然後儲存並退出（這條註釋不要寫入到distributed_test.txt檔案中）

# 使用Kafka系統命令，檢視主題distributed_connect_test中的資料
[hadoop@dn1 ~]$ kafka-console-consumer.sh --zookeeper dn1:2181 –topic\
 distributed_connect_test --from-beginning

4.總結

Kafka 聯結器可以從DB儲存或應用程式伺服器收集資料到Topic，使資料可用於低延遲的流處理。匯出作業可以將資料從Topic傳輸到二次儲存和查詢系統，或者傳遞到批處理系統以便進行離線分析。

5.結束語

這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

另外，博主出書了《Kafka並不難學》和《Hadoop大資料探勘從入門到進階實戰》，喜歡的朋友或同學，可以在公告欄那裡點選購買連結購買博主的書進行學習，在此感謝大家的支援。關注下面公眾號，根據提示，可免費獲取書籍的教學視訊。

如何建立自定義Apache Kafka聯結器(Kafka Connectors) - Prashanna
2020-07-04
ApacheKafka
ploomber：建立ML資料管道的最有效率方式
2022-03-25
OOM
資料庫也可以像電腦一樣組裝：使用Kafka建立關聯式資料庫 – Robert Yokota
2019-09-24
資料庫Kafka
ETLCloud結合kafka的資料整合
2024-04-10
CloudKafka
Kafka已經成為一個成熟的ETL CDC資料管道平臺
2022-06-12
Kafka
《Python Cookbook 3rd》筆記（4.13）：建立資料處理管道
2020-11-28
Python筆記
演算法鏈與管道（上）：建立管道
2022-06-02
演算法
Honeycomb使用Apache Kafka為資料攝取提供高可用性緩衝管道
2021-12-04
ApacheKafka
pyspark 解析kafka陣列結構資料
2024-11-07
SparkKafka陣列
重磅！濤思資料釋出 TDengine PI 聯結器
2022-11-08
Kafka能做什麼？十分鐘構建你的實時資料流管道
2019-12-07
Kafka
資料管道架構概述
2024-06-12
架構
資料結構——關聯容器
2020-10-25
資料結構
Kafka聯結器深度解讀之錯誤處理和死信佇列
2019-04-10
Kafka佇列
springboot建立與資料庫關聯模組
2020-10-01
Spring Boot資料庫
kafka資料地址
2018-08-15
Kafka
Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran
2020-12-09
ApacheKafka資料庫
樹狀的資料結構的建立
2020-06-17
資料結構
Clickhouse Engine kafka 將kafka資料同步clickhouse
2020-12-03
Kafka
Kafka資料遷移
2019-03-18
Kafka
Kafka生產消費資料丟失和優化小結
2020-10-14
Kafka優化
什麼是冪等資料管道？ - Alaro
2022-08-02
pipefunc：資料DAG管道快速構建工具
2024-12-23
express入門04 資料庫連線表結構建立模型建立
2021-01-04
Express資料庫模型
大資料開發過程中Kafka日誌結構解析
2022-07-28
大資料Kafka
資料結構之單連結串列的建立與刪除
2020-10-09
資料結構
資料結構實驗之連結串列二：逆序建立連結串列
2019-02-14
資料結構
聯想伺服器資料恢復
2024-06-23
伺服器資料恢復
Kafka原理剖析之「Topic建立」
2024-09-07
Kafka
angular4學習記錄 — 資料繫結、響應式程式設計、管道
2019-02-16
Angular程式設計
python建立分類器小結
2022-06-12
Python
ASP.Net 管道模型 VS Asp.Net Core 管道總結
2021-04-26
ASP.NET模型
程式設計優化之管道資料流
2022-03-10
程式設計優化
資料結構實驗之連結串列六：有序連結串列的建立
2019-03-11
資料結構
資料結構實驗之連結串列一：順序建立連結串列
2019-02-14
資料結構
SQL Server資料庫建立新使用者及關聯資料庫的方法教程
2019-01-30
SQLServer資料庫
alpakka-kafka(8)-kafka資料消費模式實現
2021-08-15
Kafka模式
kafka叢集Producer基本資料結構及工作流程深入剖析-kafka 商業環境實戰
2018-12-02
Kafka資料結構

Arabic	Hebrew	Polish
Bulgarian	Hindi	Portuguese
Catalan	Hmong Daw	Romanian
Chinese Simplified	Hungarian	Russian
Chinese Traditional	Indonesian	Slovak
Czech	Italian	Slovenian
Danish	Japanese	Spanish
Dutch	Klingon	Swedish
English	Korean	Thai
Estonian	Latvian	Turkish
Finnish	Lithuanian	Ukrainian
French	Malay	Urdu
German	Maltese	Vietnamese
Greek	Norwegian	Welsh
Haitian Creole	Persian