大資料學習—Kafka的核心調優引數

加米穀大資料發表於2021-09-28

隨著大資料開發的發展,越來越多的人想要轉行或者學習大資料開發這一塊,工資和發展前景都讓大家越來越看好。而 kafka 作為一個核心模組,是學習過程的一個要點知識,今天我們就一起來看一下關於 Kafka 的核心調優引數。

kafka 的配置屬性多達幾百個,在生產環境中對 kafka 進行調優時, 要如何設定 Kafka 的核心調優引數?在調優之前,我們要先分析業務場景,然後在吞吐量、延時、可靠性和可用性 4 個方面做權衡。

下面我們就從這四個方面來了解一下,從而逐一分析 kafka 應該設定哪些核心屬性以及提供建議值。

1、 吞吐量優先

吞吐量優先意味著需要儘可能提升每秒傳送訊息的吞吐量

常見場景:日誌收集

壓縮型別為什麼選擇 lz4? 因為這種型別的壓縮方式下,吞吐量最大。吞吐量優先時,會佔用大量的網路頻寬,如果不希望影響整個網路,可以設定配額。

2 低延時優先

低延是指 producer 開始傳送訊息到 consumer 接收到訊息的時間差。低延時優先意味著每條訊息需要儘可能快地完成端對端(從 producer consumer )的傳遞

常見場景:近實時資料的傳輸、聊天、視訊彈幕等應用

3 、可用性優先

提高可用性,就需要在 kafka 出現故障時,能夠儘快地恢復。

acks 對吞吐量、延時和可靠性的影響

1、 可靠性優化

可靠性就是要降低丟失訊息的概率。最常見的做法就是通過訊息複製實現高可靠。

default.replication.factor min.insync.replicas 的區別 default.replication.factor 是指分割槽的總的副本個數, min.insync.replicas 是指 ISR 列表中最少的線上副本的個數(含 leader , 當線上的副本個數小於 min.insync.replicas 時,生產者傳送訊息會失敗。 default.replication.factor=3 min.insync.replicas=2 表示訊息總共有 3 個副本,當線上的副本大於或者等於 2 時,生產者可以繼續傳送訊息,能夠容忍 1 個備份不可用,否則不能傳送訊息。

以上就是關於 kafka 的核心調優引數內容了,希望對大家能有所幫助。 如果想了解更多詳情,請點選成都加米穀大資料官網咖!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70005624/viewspace-2794220/,如需轉載,請註明出處,否則將追究法律責任。

相關文章