關於Flume拓撲結構--Flink進階認識

delete1111111111111發表於2020-12-16

Flume拓撲結構

1 簡單串聯

Flume拓撲結構-簡單串聯.png
Flume Agent連線
此模式不建議橋接過多的flume數量, flume數量過多不僅會影響傳輸速率,而且一旦傳輸過程中某個節點flume當機,會影響整個傳輸系統。

2 複製和多路複用

Flume拓撲結構-複製和多路複用.png
單source,多channel、sink
Flume支援將事件流向一個或者多個目的地。這種模式可以將相同資料複製到多個channel中,或者將不同資料分發到不同的channel中,sink可以選擇傳送到不同的目的地。

3 負載均衡和故障轉移

Flume拓撲結構-負載均衡和故障轉移.png
Flume支援使用將多個sink邏輯上分到一個sink組,sink組配合不同的SinkProcessor可以實現負載均衡和錯誤恢復的功能。

4 聚合

Flume拓撲結構-聚合.png
這種模式是我們最常見的,也非常實用,日常web應用通常分佈在上百個伺服器,大者甚至上千個、上萬個伺服器。產生的日誌,處理起來也非常麻煩。用flume的這種組合方式能很好的解決這一問題,每臺伺服器部署一個flume採集日誌,傳送到一個集中收集日誌的flume,再由此flume上傳到hdfs、hive、hbase等,進行日誌分析。

python這門語言已近變得越來越重要了,無論是辦公還是資料分析,這篇文章主要介紹最初始的爬蟲,本人也是小白一名,希望能給學習爬蟲的同學們起到一些作用。

http與https的區別

簡單一點來說,https開頭的網站使用了ssl協議加密傳輸,我們如果使用爬蟲去爬取帶有ssl協議進行資料傳輸的網站,將會遇到資料缺失的問題。

相關文章