SRE 必備知識 - Kafka 探秘之零複製技術

SRETalk發表於2024-08-27

Kafka

如果你瞭解過 Kafka，那麼它用到的一個效能最佳化技術可能會引起你的注意 -- 作業系統的零複製（zero-copy）最佳化。

零複製操作可以避免對資料的非必要複製，當然，並非是說完全沒有複製。

在 Kafka 的場景下，作業系統可以從 page cache 複製資料到 socket buffer，直接繞過 Kafka broker 這個 Java 程式。這可以節省一些額外的複製，節省一些使用者態和核心態的切換。讓我們看一個例子。

傳統複製

如果您的應用程式要從磁碟讀取檔案並透過網路傳送它，則可能會進行一堆不必要的複製，以及使用者態/核心態的切換。

Kafka 傳統複製

一些術語：

read buffer: 讀緩衝區，作業系統的 page cache
socket buffer: 套接字緩衝區，OS 用於管理資料包的位元組緩衝區
NIC buffer: 網路卡中的位元組緩衝區
DMA copy: DMA 是 Direct Memory Access 的縮寫，是記憶體控制器的一個功能，可以避免 CPU 的干預，允許硬體（圖形卡、音效卡、網路卡等）直接訪問記憶體 (RAM) 裡的某些資料

在這個例子中，我們有 4 次模式切換（使用者態和核心態之間的切換）和 4 次資料複製。

應用程式（這裡指 Kafka）利用 DMA copy 從磁碟 load 資料到 read buffer（使用者態->核心態）
read buffer 到應用程式的快取區（核心態->使用者態）
應用程式要發資料到網路上，實際是先寫到 socket buffer（使用者態->核心態）
socket buffer 到 NIC buffer（響應資料寫完之後，由核心態返回使用者態）

零複製

Kafka 零複製

為了減少複製，把資料從磁碟直接發向網路，那 Kafka 在儲存資料的時候，就要保證儲存的資料格式和將要發出的 response 格式一致。

在傳統複製模式下，第二步、第三步沒啥意義，因為 Kafka 沒有對資料做額外處理，只是簡單轉發。那能否從磁碟直接發向網路呢？答案是肯定的。透過零複製技術，磁碟上的資料還是要先進入 read buffer，然後不用再複製到應用程式的快取區，而是直接複製到 NIC buffer，圖上的步驟 2：Appends just file descriptors，只是把檔案描述符交給了 Socket buffer，實際資料並沒有複製給 Socket buffer。這就是所謂的 scatter-gather 操作（也稱為 Vectorized I/O），scatter-gather 是僅將 read buffer 資料指標儲存在 socket buffer 中，並讓 DMA 直接從記憶體讀取資料的行為。

最終結果如何呢？

4 次模式切換變成了 2 次
2 次 DMA 複製，仍然是 2 次
1 次微小的指標複製

Kafka 傳統複製和零複製對比

在 Kafka 中

你可能聽過 Kafka 因為零複製實現了高效能，但是理想很豐滿現實很骨感，零複製技術在大部分 Kafka 叢集中並沒有那麼大的影響力。

CPU 很少成為瓶頸。網路飽和的速度要快得多，因此在大多數情況下，記憶體中副本的缺失並不會帶來多大的影響。
啟用加密和 SSL/TLS 已經禁止 Kafka 使用零複製

原文：https://2minutestreaming.beehiiv.com/p/apache-kafka-zero-copy-operating-system-optimization
譯者：巴輝特，極客時間專欄《運維監控系統實戰筆記》作者，Open-Falcon、Nightingale 開源專案發起人，目前創業中，作為 Flashcat 聯合創始人，專攻監控/可觀測性方向。歡迎和我一起探討監控/可觀測性相關技術和產品。

MySQL主從複製原理及必備知識總結
2018-05-13
MySql
MySQL的零複製技術
2022-12-05
MySql
Linux零複製技術淺析
2020-07-19
Linux
機器學習之必備知識篇
2019-03-17
機器學習
Java面試題必備知識之ThreadLocal
2019-07-21
Java面試題thread
一文搞懂Linux零複製技術
2020-01-21
Linux
css必備知識點
2019-03-06
CSS
必備知識點模版
2024-03-28
必備知識點路由
2024-03-28
路由
Apache Kafka零複製最佳化原理
2024-07-04
ApacheKafka
Python面試必備一之迭代器、生成器、淺複製、深複製
2024-04-05
Python面試
前端必備知識點—SVG
2018-07-12
前端SVG
必備知識點檢視
2024-03-28
網路基礎必備知識
2019-08-23
OpenStack必備基礎知識
2020-12-10
常用技術必知必會
2024-12-10
使用零複製技術提高儲存系統效能
2024-07-14
面試題：如何理解 Linux 的零複製技術？
2022-12-05
面試題Linux
遊戲技術美術之<技術&美術>知識構成
2021-11-09
遊戲
專案必備技術之單元測試
2020-12-11
必備知識點模型層ORM
2024-03-28
模型ORM
安裝Linux之前必備知識
2024-03-24
Linux
Redis 面試必備知識點
2021-05-05
Redis面試
容器雲開發必備知識
2021-02-09
計算機常識——零複製
2024-11-25
計算機
Hybrid App 應用開發中 5 個必備知識點複習
2019-06-26
APP
零基礎如何學好大資料？必備需要學習知識
2019-06-18
大資料
Web前端必備-Nginx知識彙總
2019-04-12
Web前端Nginx
前端進階必備知識彙總
2019-07-31
前端
騰訊 PHP 面試必備知識
2019-05-09
PHP面試
day04 必備基礎知識
2024-09-17
零基礎入門學習Python爬蟲必備的知識點！
2018-09-26
Python爬蟲
web前端必備技術有哪些？
2022-03-08
Web前端
程式猿必備的Linux基礎知識
2019-03-29
Linux
Python入門必備知識點總結
2019-02-28
Python
ReactNative開發必備ES6知識
2018-07-23
React
效能測試必備基礎知識(二)
2023-12-05
Python 基礎（一）：入門必備知識
2019-11-03
Python

SRE 必備知識 - Kafka 探秘之零複製技術

傳統複製

零複製

在 Kafka 中

相關文章