Spark+Hbase 億級流量分析實戰（日誌儲存設計）

大豬大資料發表於2019-03-29

原文網址 : https://juejin.im/post/5c9de4db51882567e9036305

Spark

背景

接著上篇文章百億級流量實時分析統計 - 資料結構設計我們已經設計好了日誌的結構，接下來我們就準備要開始擼程式碼了，我最喜歡這部分的環節了，可是一個上來連就擼程式碼的程式肯定不是好程式設計師，要不先設計設計流程圖？那來吧！！！

流程圖

設計一

使用者發起文章操作，發起請求日誌
日誌將由SLB伺服器進行負載到日誌打點伺服器。
NSA將作為日誌收集中心進行儲存，也可以使用rsync把節點上的日誌同步到日誌中心。
作為核心的ETL程式，將要對日誌中心上所有節點的資料進行抽取轉換載入。
上圖中出現的Hbase比較好理解，但是為什麼要出現Mysql？因為我們要更細粒度地控制日誌的寫入時間點，主要用來記錄日誌時間的offset，後續會有詳細的介紹。

設計二

使用者發起文章操作，發起請求日誌
日誌將由SLB伺服器進行負載到日誌打點伺服器。
Filebeat 收集節點日誌到Kafka，主要是用來日誌削峰使用。 **或者：**使用nginx直接將日誌寫入kafka,因為nginx也是生產級別的。
ETL 將消費Kafka 資料並寫到Hbase。
與設計一相同

日誌中心

日誌中心的儲存會是下面這樣

├── log
│   ├── 2019-03-21
│   │   ├── 111.12.32.11
│   │   │   ├── 10_01.log
│   │   │   └── 10_02.log
│   │   ├── 222.22.123.123
│   │   │   ├── 0_01.log
│   │   │   ├── 0_02.log
│   │   │   └── 0_03.log
│   │   └── 33.44.55.11
│   ├── 2019-03-22
│   └── 2019-03-23
複製程式碼

每分鐘每節點會生成一個檔案。
一天一個資料夾。
這樣子的設計可以方便查錯。

日誌內容如下

{"time":1553269361115,"data":{"type": "read","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
{"time":1553269371115,"data":{"type": "comment","content":"666,支援一下","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
複製程式碼

敲定方案

選擇設計一 因為我們就看上了第5點,線上上業務穩定了一年的使用情況來看，這種方案是可行的。

在下篇文章中，我們將真實開始擼我們的黃金程式碼了，所有程式將使用scala進行實現，你想問我什麼嗎？四個字：

Spark+Hbase 億級流量分析實戰（留存計算）
2019-03-29
Spark
Spark+Hbase 億級流量分析實戰（ PV/UV ）
2019-03-29
Spark
億級流量架構實戰之秒殺設計
2021-03-07
架構
我們NetCore下日誌儲存設計
2021-01-17
NetCore
PG wal 日誌的物理儲存分析
2019-01-03
億級流量實驗平臺設計與實現
2021-10-19
RocketMQ 多級儲存設計與實現
2023-04-17
MQ
雲原生環境下的日誌採集、儲存、分析實踐
2022-04-28
python日誌怎麼儲存
2021-09-11
Python
lumen cli日誌和普通日誌分開儲存
2021-09-09
億級流量系統架構之如何支撐百億級資料的儲存與計算
2018-12-27
架構
SelectDB肖康：Apache Doris在日誌儲存與分析場景的實踐
2023-02-15
Apache
分散式日誌儲存架構程式碼實踐
2022-05-08
分散式架構
Java億級流量高併發設計方案
2020-12-15
Java
SpringCloud Alibaba實戰（3：儲存設計與基礎架構設計）
2021-06-08
SpringGCCloud架構
SpringBoot 實戰 (七) | 預設日誌配置
2019-02-18
Spring Boot
Laravel 使用 Elasticsearch 作為日誌儲存
2019-11-25
LaravelElasticsearch
kafka日誌索引儲存及Compact壓實機制深入剖析-kafka 商業環境實戰
2018-11-25
Kafka索引
Laravel 5.6+ 使用 MongoDB 儲存框架日誌
2019-01-13
LaravelMongoDB框架
使用 Easysearch，日誌儲存少一半
2023-05-15
日誌分析-apache日誌分析
2024-04-28
Apache
流量分析與日誌溯源的個人理解
2020-12-09
解密得物Trace2.0：日PB級資料量下的計算與儲存效能最佳化實戰
2024-01-16
解密
CDN日誌實時分析
2018-07-19
Android進階：一、日誌列印和儲存策略
2019-03-19
Android
Laravel 5.8 自定義位置日誌按天儲存
2020-05-22
Laravel
SpringCloud微服務實戰——搭建企業級開發框架（三十七）：微服務日誌系統設計與實現
2022-02-18
SpringGCCloud微服務框架
有贊百億級日誌系統架構設計
2019-04-15
架構
從 Elasticsearch 到 SelectDB，觀測雲實現日誌儲存與分析的 10 倍價效比提升
2023-12-01
Elasticsearch
量表設計與分析實戰
2023-09-08
億級流量系統架構之如何支撐百億級資料的儲存與計算【石杉的架構筆記】
2018-11-26
架構筆記
企業級日誌分析系統——ELK
2020-11-19
百億級日誌流分析實踐 | 剖析個推後效分析功能實現原理
2021-09-23
[日誌分析篇]-利用ELK分析jumpserver日誌-日誌拆分篇
2024-10-24
Server
在 R2 上儲存您的 Cloudflare 日誌
2021-12-18
Cloud
mysql 資料儲存檔案及6類日誌
2021-01-25
MySql
2024.11.09 程式設計日誌
2024-11-10
程式設計
實戰案例：醫療臨床大資料實時流日誌分析
2019-02-13
大資料

Spark+Hbase 億級流量分析實戰（日誌儲存設計）

背景

流程圖

設計一

設計二

日誌中心

敲定方案

相關文章