Kafka 之 async producer (1)

devos發表於2014-03-27

問題

很多條訊息是怎麼打包在一起的？
如果訊息是發給很多不同的topic的， async producer如何在按batch傳送的同時區分topic的
它是如何用key來做partition的？
是如何實現對訊息成批量的壓縮的？

async producer是將producer.type設為async時啟用的producer

此時，呼叫send方法的執行緒和實際完成訊息傳送的執行緒是分開的。

當呼叫java API中producer的send方法時，最終會呼叫kafka.producer.Producer的send方法。在kafka.producer.Producer類中，會根據producer.type配置使用不同的方法傳送訊息。

def send(messages: KeyedMessage[K,V]*) {
    lock synchronized {
      if (hasShutdown.get)
        throw new ProducerClosedException
      recordStats(messages)
      sync match {
        case true => eventHandler.handle(messages)
        case false => asyncSend(messages)
      }
    }
  }

　　當async時，會使用asyncSend。asyncSend方法會根據“queue.enqueue.timeout.ms”配置選項採用BlockingQueue的put或offer方法把訊息放入kafka.producer.Producer持有的一個LinkedBlockingQueue。一個ProducerSendThread執行緒從queue裡取訊息，成批量的用eventHandler來處理。

　　當使用sync時，對每條訊息會直接使用eventHandler來處理。這就是為什麼前一種方式會被稱為"asynchornization"，而這一種會稱為”synchronization"

  private val queue = new LinkedBlockingQueue[KeyedMessage[K,V]](config.queueBufferingMaxMessages)

　　在kafka.producer.Producer構造時，會檢查"producer.type“，如果是asnyc，就會開啟一個送發執行緒。

  config.producerType match {
    case "sync" =>
    case "async" =>
      sync = false
      producerSendThread = new ProducerSendThread[K,V]("ProducerSendThread-" + config.clientId,
                                                       queue,
                                                       eventHandler,
                                                       config.queueBufferingMaxMs,
                                                       config.batchNumMessages,
                                                       config.clientId)
      producerSendThread.start()

　　現在有了一個佇列，一個傳送執行緒。看來這個ProducerSendThread是來完成大部分傳送的工作，而"async"的特性都主要都是由它來實現。

　　這個執行緒的run方法實現為：

  override def run {
    try {
      processEvents
    }catch {
      case e: Throwable => error("Error in sending events: ", e)
    }finally {
      shutdownLatch.countDown
    }
  }

　　看來實際工作由processEvents方法來實現嘍

  private def processEvents() {
    var lastSend = SystemTime.milliseconds //上一次傳送的時間，每傳送一次會更新
    var events = new ArrayBuffer[KeyedMessage[K,V]] //一起傳送的訊息的集合，傳送完後也會更新
    var full: Boolean = false  //是否訊息的數量已大於指定的batch大小（batch大小指多少訊息在一起傳送，由"batch.num.messages"確定）

    // drain the queue until you get a shutdown command
    //構造一個流，它的每個元素為queue.poll(timeout)取出來的值。
    //timeout的值是這麼計算的：lastSend+queueTime表示下次傳送的時間，再減去當前時間，就是最多還能等多長時間，也就是poll阻塞的最長時間
    //takeWhile接受的函式引數決定了當item是shutdownCommand時，流就結束了。這個shutdownCommand是shutdown()方法執行時，往佇列裡發的一個特殊訊息
    Stream.continually(queue.poll(scala.math.max(0, (lastSend + queueTime) - SystemTime.milliseconds), TimeUnit.MILLISECONDS))
                      .takeWhile(item => if(item != null) item ne shutdownCommand else true).foreach {
      currentQueueItem => 										//對每一條處理的訊息
        val elapsed = (SystemTime.milliseconds - lastSend)  //距上次傳送已逝去的時間，只記錄在debug裡，並不會以它作為是否傳送的條件
        // check if the queue time is reached. This happens when the poll method above returns after a timeout and
        // returns a null object
        val expired = currentQueueItem == null //當poll方法超時，就返回一個null,說明一定已經是時候傳送這批訊息了。當時間到了，poll(timeout)中timeout為負值時，poll一定返回null
        if(currentQueueItem != null) {
          trace("Dequeued item for topic %s, partition key: %s, data: %s"
              .format(currentQueueItem.topic, currentQueueItem.key, currentQueueItem.message))
          events += currentQueueItem //如果當前訊息不為空，就附加在傳送集合裡
        }

        // check if the batch size is reached
        full = events.size >= batchSize //是否當前傳送集合的大小已經大於batch size

        if(full || expired) {  //如果傳送集合有了足夠多的訊息或者按時間計可以傳送了，就傳送
          if(expired)
            debug(elapsed + " ms elapsed. Queue time reached. Sending..")
          if(full)
            debug("Batch full. Sending..")
          // if either queue time has reached or batch size has reached, dispatch to event handler
          tryToHandle(events)
          lastSend = SystemTime.milliseconds //更新lastSend，將一個新的ArrayBuffer的引用賦給events
          events = new ArrayBuffer[KeyedMessage[K,V]]
        }
    }
    // send the last batch of events
    tryToHandle(events) //當shutdownCommand遇到時，流會終結。此時之前的訊息只要不是恰好傳送完，就還會有一些在events裡，做為最後一批傳送。
    if(queue.size > 0) //些時producerSendThread已經不再發訊息了，但是queue裡若還有沒發完的，就是一種異常情況
      throw new IllegalQueueStateException("Invalid queue state! After queue shutdown, %d remaining items in the queue"
        .format(queue.size))
  }

　　看來Scala的Stream幫了不少忙。shutdown方法將一個特殊的shutdownCommand發給queue，也正好使得這個Stream可以用takeWhile方法正確結束。

　　好吧，搞了這麼多，這個ProducerSendThread只有打包的邏輯，並沒有處理topic、partition、壓縮的邏輯，這些邏輯都在另一個類中。明天再來看看這個handler

Kafka 之 async producer (2) kafka.producer.async.DefaultEventHandler
2014-03-29
Kafka
alpakka-kafka(1)-producer
2021-02-20
Kafka
Kafka之Producer原始碼
2018-08-14
Kafka原始碼
Kafka學習（四）-------- Kafka核心之Producer
2019-08-06
Kafka
原始碼分析Kafka之Producer
2018-08-27
原始碼Kafka
Kafka Java API 之Producer原始碼解析
2015-11-20
KafkaJavaAPI原始碼
詳解Kafka Producer
2019-11-15
Kafka
Kafka Producer Consumer
2018-02-10
Kafka
apache kafka原始碼分析-Producer分析
2015-11-17
ApacheKafka原始碼
Kafka之ReplicaManager(1)
2015-12-15
Kafka
我花了一週讀了Kafka Producer的原始碼
2019-08-27
Kafka原始碼
最佳實踐｜從Producer 到 Consumer，如何有效監控 Kafka
2022-05-27
Kafka
kafka叢集Producer基本資料結構及工作流程深入剖析-kafka 商業環境實戰
2018-12-02
Kafka資料結構
kafka生產者Producer引數設定及引數調優建議-kafka 商業環境實戰
2018-10-28
Kafka
《Kafka筆記》1、Kafka初識
2020-10-18
Kafka筆記
kafka_2.11-0.10.2.1 的生產者消費者的示例（new producer api）
2019-01-15
KafkaAPI
async原始碼之series
2019-03-04
原始碼
Kafka深度解析（1）
2015-11-17
Kafka
Kafka學習之（四）PHP操作Kafka
2018-01-17
KafkaPHP
Kafka入門（1）：概述
2020-07-08
Kafka
Kafka學習（三）-------- Kafka核心之Cosumer
2019-07-25
Kafka
Kafka學習之（六）搭建kafka叢集
2018-02-15
Kafka
Kafka學習之（七）搭建kafka視覺化服務Kafka Eagle
2018-02-18
Kafka視覺化
Kafka學習之（五）搭建kafka叢集之Zookeeper叢集搭建
2018-02-14
Kafka
詳細解析kafka之kafka分割槽和副本
2021-09-09
Kafka
Kafka學習之（二）Centos下安裝Kafka
2018-01-16
KafkaCentOS
sparkStreaming 之 kafka源
2020-11-07
SparkKafka
A Prototype of Producer-Consumer
2019-04-13
理解 Paimon changelog producer
2023-12-17
AI
Ioctl ASYNC_CONFIG error, errno = 1
2010-09-21
Error
探索c#之Async、Await剖析
2015-06-15
C#AI
Apache Kafka監控之Kafka Web Console
2015-12-09
ApacheKafkaWeb
Kafka Streams開發入門(1)
2020-11-14
Kafka
An Enhanced Prototype of Producer-Consumer
2019-04-14
Kafka之消費與心跳
2020-10-16
Kafka
訊息佇列之 Kafka
2018-01-24
佇列Kafka
Apache Kafka監控之KafkaOffsetMonitor
2015-12-09
ApacheKafka
Kafka原理剖析之「Topic建立」
2024-09-07
Kafka

Kafka 之 async producer (1)

問題

相關文章