kafka 第一次小整理(草稿篇)————演變[二]

敖毛毛發表於2022-03-20

原文網址 : https://www.cnblogs.com/aoximin/p/16029712.html

Kafka

前言

簡單整理一些kafka的設計。

正文

前文提及到log 的重要性，以及kafka在其中的作用，起著一個日誌管理分發的作用，對於其他服務來說相當於新聞報社，訂閱某種主題就會收到某類資訊。

當人們意識到事件狀態的重要性的時候，當時還沒有日誌管理系統，可能像下面這樣:

他們各自傳遞著各自的事件狀態給需要的服務，有點亂且難以維護。

於是為了給他們解耦，就出現了下面這樣的:

這種模式解決了日誌分發問題。

這種模式的出現是否解決了各種服務之間日誌的共享。

現在日誌和資料庫似乎沒有什麼關聯了，也就是事件狀態的出現滿足了新的需求，並沒有和事物的狀態有什麼影響，似乎這兩者在並行的發展。

在事物狀態歷史發展中，出現了一種東西叫做也就是資料倉儲。

通過清洗業務倉庫裡面的東西來進行對聚合整理，這個清洗過程叫做etl，也就是extract-transform-load.

顧明思議哈，收集、轉換、載入。

ETL是將業務系統的資料經過抽取、清洗轉換之後載入到資料倉儲的過程，目的是將企業中的分散、零亂、標準不統一的資料整合到一起，為企業的決策提供分析依據， ETL是BI（商業智慧）專案重要的一個環節。

這東西有什麼作用呢，比如說，要查詢進一個月每天的訂單，如果直接這樣查的話，一個是資料庫語句難寫，有人可能會問怎麼就難寫哈，不就是group by 聚合嗎，但是還有一個問題那就可能有一天沒有訂單哈。

第二個問題就是效能消耗大，假如訂單多的話，做group by 也是很損耗的。 elk 可以做一些簡單的工作，比如說每天統計一次訂單數量，然後查詢的時候複雜度就很低了，現在的資料庫設計更偏向於設計更加簡單的資料表，而不是寫複雜的語句，語句寫的複雜更多的可能是資料庫設計問題。

資料倉儲對於分析很有作用。但是傳統的資料倉儲有一個問題，那就是一般清洗過程是定時去業務資料庫裡面取資料哈。

且不從技術層面上考慮效能問題，有一個問題就是時效性，也就是說無法對現有的資料進行監控。

然後還有另外一個問題，似乎資料倉儲是一個獨立的服務了，和其他服務脫鉤了，取資料也是直接面向資料庫，處理的結果也無法反饋到其他服務中去。

資料倉儲服務，似乎成了業務孤島。那麼怎麼協調他們呢，日誌系統去協調他們。

各自的服務傳送各自的事件進入日誌系統，elk 訂閱這些進入到資料倉儲中，資料倉儲又反饋給自動化營銷服務中。

這也對服務提出了新的需求了，也就是資料的釋出者。比如說使用者的退款，那麼產生的事件裡面有: 訂單id 使用者id 退款時間，這樣似乎就能對這件事情的狀態有了描述了。

但是更多的是在釋出的時候就進行了清洗，裡面的事件裡面有：訂單id 使用者id 訂單金額退款金額退款商品退款數量退款時間等（什麼人在什麼地點幹了一件什麼事）這些清洗好的資料，這樣elk 的負擔相對小很多，如果需要查詢商品的退款情況，就很明白了。

而對於市場服務的效能上也沒有很大的問題，因為在退款上本來就要查詢訂單，順便清洗。對於擴充套件性，如果有新的服務，那麼可以定義新的資料模型釋出即可。

這些也就是事件驅動了，事件驅動是指在持續事務管理過程中，進行決策的一種策略，即跟隨當前時間點上出現的事件，調動可用資源，執行相關任務，使不斷出現的問題得以解決，防止事務堆積。在計算機程式設計、公共關係、經濟活動等領域均有應用。

事件驅動達到了很好的解耦的目的，比如說商家訂單支付完，然後要進行騎手送餐，市場服務只需要完成自己的事情即可，然後傳送事件到kafka即可。

那麼對於日誌業務的可擴充套件性，kafka 是能滿足的。

需求基本滿足了，通過這種日誌的訂閱釋出是可以達到需求的。

那麼就開始考慮到實際情況，各個服務的日誌是很龐大的，那麼是否kafka能滿足呢？

最簡單的一個問題，就是生產和消費的速度很有可能不一致。很有可能就是生產要大於消費，可能遠大於。

畢竟生產沒啥業務邏輯，消費的時候可能就要複雜的業務邏輯了。

故而kafka 一個主題可以有多個分割槽:

且每個分割槽的消費都是順序的。

後來又出現了流處理，那麼什麼是流處理呢？

上面介紹了，有了日誌系統後將數倉業務和線上業務打通了，業務服務有也承擔著一部分清洗功能。

但是面對著大量的資料，可能就處理不過來，有hadoop 這種這種是批處理程式，但是無法到達實時。

比如說可能能達到這個使用者幾天沒有續費，然後發個問卷調查，但是無法達到下面這種。

達不到使用者如果連輸輸了15把，給一張優惠券的目的，使用者贏了10把，匹配更強對手的戰略營銷。

尤其是贏了10把，下一把匹配更強了，這就需要計算實效非常高。

為啥有專門的流處理呢？自己寫個服務進行處理不是也挺好嗎。其實自己寫服務達到流處理，也是可以的呀，但是可能面對資料太大，撐不住啊，但是隻能說人家更專業，在低延遲、高吞吐、結果和準確性和良好的容錯性上。

然而最關鍵的不是處理能力問題，而是流式處理是一門學問。

那麼為什麼hadoop 一開始不做成這種流式的呢？是不是當時就沒有這個需求呢。肯定是有需求的，不然後面也不會出現流處理。那到底是什麼問題呢？僅僅是處理能力的問題嗎？這就是流式的學問了。

結

下一節正式kafka 整理。

kafka 第一次小整理(草稿篇)————整理一下自己的認知
2022-03-20
Kafka
kafka 第一次小整理(草稿篇)————分發的基本思路[三]
2022-03-23
Kafka
故事篇：資料庫架構演變之路
2022-11-21
資料庫架構
草稿 0255 ktv第二個頁面
2020-12-05
mongodb基礎整理篇————常規操作[二]
2022-01-09
MongoDB
kafka知識整理——部署
2024-06-07
Kafka
草稿
2020-12-27
小程式：技術標準與生態的演變
2023-05-09
CTFWeb篇xxx-小知識點（未整理）集合
2024-10-11
Web
整理kafka常見面試題
2020-11-26
Kafka面試題
思路整理篇
2019-03-25
變數整理
2021-10-22
變數
Kafka 效能篇：為何 Kafka 這麼快？
2021-09-26
Kafka
Kafka 學習筆記（二）：初探 Kafka
2019-03-04
Kafka筆記
kafka學習（二）-------- 什麼是Kafka
2019-07-22
Kafka
Kafka學習筆記（二）：初探Kafka
2018-03-26
Kafka筆記
十進位制轉二進位制推導（草稿）
2024-10-05
筆記整理：技術架構涵蓋內容和演變過程總結
2021-03-05
筆記架構
Hadoop的版本演變
2018-09-27
Hadoop
運維演變之路
2018-08-26
運維
重新整理 mysql 基礎篇————— 介紹mysql日誌[二]
2021-06-11
MySql
重新整理 .net core 實踐篇————依賴注入應用[二]
2021-05-25
依賴注入
Kafka基礎入門篇
2021-10-09
Kafka
日誌分析如何演變
2018-10-31
Fabric架構演變之路
2019-02-27
架構
系統架構演變
2022-03-10
架構
小程式 webview 應用實踐（演講內容整理）丨掘金開發者大會
2018-09-18
WebView
SAP入門篇(1)——SAP S/4 HANA的演變過程和版本更新
2023-03-31
Scrapy爬蟲-草稿
2018-09-08
爬蟲
java 筆記（草稿）
2018-09-13
Java筆記
小組第一次會議
2021-03-15
iOS開發UI篇--仿射變(CGAffineTransform)使用小結
2018-11-20
iOSUIORM
重新整理 .net core 周邊閱讀篇————AspNetCoreRateLimit 之規則[二]
2021-10-08
NetCoreMIT
WePY – 小程式敏捷開發實踐（演講內容整理）丨掘金開發者大會
2019-03-02
敏捷
用 React 開發小程式的探索之路（演講內容整理）| 掘金開發者大會
2018-09-20
React
WePY - 小程式敏捷開發實踐（演講內容整理）丨掘金開發者大會
2018-09-19
敏捷
淺談Kotlin語法篇之變數和常量(二)
2018-04-01
Kotlin變數
第一次作業-準備篇
2019-02-22

kafka 第一次小整理(草稿篇)————演變[二]

前言

正文

結

相關文章