Kafka簡介、基本原理、執行流程與使用場景

JAVA攻城獅發表於2019-05-05

原文網址 : https://juejin.im/post/5cc5a4785188252d3f7e1c71

一、簡介

Apache Kafka是分散式釋出-訂閱訊息系統，在 kafka官網上對 kafka 的定義：一個分散式釋出-訂閱訊息傳遞系統。它最初由LinkedIn公司開發，Linkedin於2010年貢獻給了Apache基金會併成為頂級開源專案。Kafka是一種快速、可擴充套件的、設計內在就是分散式的，分割槽的和可複製的提交日誌服務。

幾種分散式系統訊息系統的對比：

##二、Kafka基本架構它的架構包括以下元件：

話題（Topic）：是特定型別的訊息流。訊息是位元組的有效負載（Payload），話題是訊息的分類名或種子（Feed）名；
生產者（Producer）：是能夠釋出訊息到話題的任何物件；
服務代理（Broker）：已釋出的訊息儲存在一組伺服器中，它們被稱為代理（Broker）或Kafka叢集；
消費者（Consumer）：可以訂閱一個或多個話題，並從Broker拉資料，從而消費這些已釋出的訊息；

上圖中可以看出，生產者將資料傳送到Broker代理，Broker代理有多個話題topic，消費者從Broker獲取資料。

三、基本原理

我們將訊息的釋出（publish）稱作 producer，將訊息的訂閱（subscribe）表述為 consumer，將中間的儲存陣列稱作 broker(代理)，這樣就可以大致描繪出這樣一個場面：

生產者將資料生產出來，交給 broker 進行儲存，消費者需要消費資料了，就從broker中去拿出資料來，然後完成一系列對資料的處理操作。

乍一看返也太簡單了，不是說了它是分散式嗎，難道把 producer、 broker 和 consumer 放在三臺不同的機器上就算是分散式了嗎。看 kafka 官方給出的圖：

多個 broker 協同合作，producer 和 consumer 部署在各個業務邏輯中被頻繁的呼叫，三者通過 zookeeper管理協調請求和轉發。這樣一個高效能的分散式訊息釋出訂閱系統就完成了。

圖上有個細節需要注意，producer 到 broker 的過程是 push，也就是有資料就推送到 broker，而 consumer 到 broker 的過程是 pull，是通過 consumer 主動去拉資料的，而不是 broker 把資料主懂傳送到 consumer 端的。

四、Zookeeper在kafka的作用

上述，提到了Zookeeper，那麼Zookeeper在kafka的作用是什麼？

（1）無論是kafka叢集，還是producer和consumer都依賴於zookeeper來保證系統可用性叢集儲存一些meta資訊。

（2）Kafka使用zookeeper作為其分散式協調框架，很好的將訊息生產、訊息儲存、訊息消費的過程結合在一起。

（3）同時藉助zookeeper，kafka能夠生產者、消費者和broker在內的所以元件在無狀態的情況下，建立起生產者和消費者的訂閱關係，並實現生產者與消費者的負載均衡。

五、執行流程

首先看一下如下的過程：

我們看上面的圖，我們把 broker 的數量減少，叧有一臺。現在假設我們按照上圖進行部署：

（1）Server-1 broker 其實就是 kafka 的 server，因為 producer 和 consumer 都要去還它。 Broker 主要還是做儲存用。

（2）Server-2 是 zookeeper 的 server 端，它維持了一張表，記錄了各個節點的 IP、埠等資訊。

（3）Server-3、 4、 5 他們的共同之處就是都配置了 zkClient，更明確的說，就是執行前必須配置 zookeeper的地址，道理也很簡單，這之間的連線都是需要 zookeeper 來進行分發的。

（4）Server-1 和 Server-2 的關係，他們可以放在一臺機器上，也可以分開放，zookeeper 也可以配叢集。目的是防止某一臺掛了。

簡單說下整個系統執行的順序：

啟動zookeeper 的 server
啟動kafka 的 server
Producer 如果生產了資料，會先通過 zookeeper 找到 broker，然後將資料存放到 broker
Consumer 如果要消費資料，會先通過 zookeeper 找對應的 broker，然後消費。

六、Kafka的特性

（1）高吞吐量、低延遲：kafka每秒可以處理幾十萬條訊息，它的延遲最低只有幾毫秒，每個topic可以分多個partition, consumer group 對partition進行consume操作；

（2）可擴充套件性：kafka叢集支援熱擴充套件；

（3）永續性、可靠性：訊息被持久化到本地磁碟，並且支援資料備份防止資料丟失；

（4）容錯性：允許叢集中節點失敗（若副本數量為n,則允許n-1個節點失敗）；

（5）高併發：支援數千個客戶端同時讀寫；

（6）支援實時線上處理和離線處理：可以使用Storm這種實時流處理系統對訊息進行實時進行處理，同時還可以使用Hadoop這種批處理系統進行離線處理；

七、Kafka的使用場景

（1）日誌收集：一個公司可以用Kafka可以收集各種服務的log，通過kafka以統一介面服務的方式開放給各種consumer，例如Hadoop、Hbase、Solr等；

（2）訊息系統：解耦和生產者和消費者、快取訊息等；

（3）使用者活動跟蹤：Kafka經常被用來記錄web使用者或者app使用者的各種活動，如瀏覽網頁、搜尋、點選等活動，這些活動資訊被各個伺服器釋出到kafka的topic中，然後訂閱者通過訂閱這些topic來做實時的監控分析，或者裝載到Hadoop、資料倉儲中做離線分析和挖掘；

（4）運營指標：Kafka也經常用來記錄運營監控資料。包括收集各種分散式應用的資料，生產各種操作的集中反饋，比如報警和報告；

（5）流式處理：比如spark streaming和storm；

（6）事件源；

RabbitMQ 簡介以及使用場景
2020-11-27
MQ
Redis - 介紹與使用場景
2023-01-31
Redis
kafka入門：簡介、使用場景、設計原理、主要配置及叢集搭建（轉）
2019-01-25
Kafka
執行緒池的使用場景
2024-03-11
執行緒
Flink基本原理與應用場景
2019-04-11
MySQL原理簡介—1.SQL的執行流程
2024-11-23
MySql
RabbitMQ 的應用場景以及基本原理介紹
2019-04-13
MQ
RabbitMQ的應用場景以及基本原理介紹
2020-07-03
MQ
7.3 應用場景簡介
2020-01-08
kafka 簡介
2018-05-21
Kafka
Kafka簡介
2022-03-22
Kafka
執行緒簡介
2022-04-09
執行緒
kafka之一：kafka簡介
2021-06-04
Kafka
MySQL原理簡介—2.InnoDB架構原理和執行流程
2024-11-24
MySql架構
事件流處理 (ESP) 與 Kafka 簡介
2023-11-06
事件Kafka
面試官：Kafka是什麼，它有什麼特性與使用場景？
2022-05-10
面試Kafka
訊息佇列的使用場景之kafka
2021-12-11
佇列Kafka
符號執行簡介
2021-01-01
符號
JAVA多執行緒使用場景和注意事項
2019-03-13
Java執行緒
SQL 解析與執行流程
2024-01-08
SQL
執行緒本地ThreadLocal的介紹與使用！
2021-07-07
執行緒thread
Kafka 簡介 & 整合 SpringBoot
2019-03-06
KafkaSpring Boot
Apache-Kafka簡介
2019-03-23
ApacheKafka
Dart VM 的相關簡介與執行模式解析
2021-06-02
Dart模式
Spark學習（一）——執行模式與執行流程
2019-03-31
Spark模式
程式和執行緒簡介
2021-12-31
執行緒
面試場景題：一次關於執行緒池使用場景的討論。
2024-08-19
面試執行緒
Spring 框架基礎(06)：Mvc架構模式簡介，執行流程詳解
2019-12-06
Spring框架MVC架構模式
Webpack 下使用 web workers 及基本原理和應用場景
2019-07-27
Web
Systemd簡介與使用
2018-11-21
JQuery簡介與使用
2020-10-05
jQuery
插曲：Kafka的HW，LEO更新原理及執行流程總結
2019-12-01
Kafka
MyBatis執行流程的各階段介紹
2020-07-04
MyBatis
Hive簡介、應用場景及架構原理
2018-08-20
Hive架構
Hystrix Turbine簡介與使用
2018-11-20
Hbase原理的介紹和使用場景分析
2019-02-15
使用多執行緒增加kafka消費能力
2019-03-25
執行緒Kafka
【譯】npm包執行器簡介:npx
2019-04-13
NPM