「視訊小課堂」Logstash如何成為鎮得住場面的資料管道（文字版）

讀位元組發表於2021-03-14

原文網址 : https://www.cnblogs.com/readbyte/p/14532014.html

視訊地址

內容

首先我們延續上一期視訊中日誌採集架構的案例，Filebeat採集日誌並推送Kafka訊息佇列進行分發，再由Logstash消費日誌訊息，並將日誌資料最終落地在Elasticsearch叢集索引當中，Kafka作為訊息佇列分發服務需要將收集到的日誌訊息繼續分發下去，最終資料落地在Elasticsearch叢集索引當中。

那麼連線整個過程的主角Logstash是如何工作的，就是我們今天講解的重點。

Logstash工作過程分為三個部分：Input輸入、Filter過濾、Output輸出，它們共同協作形成了完整的Logstash資料管道傳輸機制

我們先從一個最簡單的例子演示開始，看看Logstash是怎麼輸入和輸出的，這一次先跳過filter過濾環節。

下面檢視已經預置好的一個配置檔案01-kafka-elastic-nginx.conf

首先是input輸入配置點，從Kafka訂閱訊息，Kafka叢集地址與filebeat中都指向了一個地址，其他配置我們先略過，後續Kafka專題再說

下來看到要訂閱的Topic主題TestT3，我們先不用json格式解碼訊息，預設就是純文字的方式

一樣的，這一步先略過過濾環節，直接看看output輸出配置點，目標是給Elasticsearch輸出資料，並指定了elasticsearch叢集的三個節點

輸出環節建立需要寫入的elasticsearch日誌索引，我們先按照預設的filebeat採集時間，進行日期格式化，按照每個小時建立一個索引，這塊會有時間問題，一會兒再說。

讓資料輸出到終端，方便我們除錯結果。

通過演示中最簡單的配置方式，這時候的Logstash已經成為連線Kafka和Elastisearch之間的資料管道了！

好，接下來我們將所有系統執行起來，並生成一條nginx請求日誌，看看管道各個階段的資料變化。

首先nginx日誌資料被filebeat採集，是一條典型的無結構的文字日誌資料，大家注意紅色標註的時間是2021年2月21日13時

接著這條日誌資料通過Kafka進入到了Logstash管道的輸入階段，

Logstash為這條日誌生成了更為非常龐大的Json資料，裡面包括了所有被採集主機的資訊，以及nginx日誌，實際上這些原始資訊並沒有被良好的進行資料清洗與結構化

最後資料被寫入到Elastisearch一個按小時劃分的索引當中，對應時間為2021年2月21日5時

我們發現Logstash對原始資料在沒有任何處理的情況下，會很不方便將來資料的使用；

這次我們利用Logstash json解碼器讓管道重新再來一次，

接下來我們進入Logstash中對應的配置檔案，並找到input輸入點的codec配置，刪掉註釋，開啟Logstash對輸入資料的json解碼方式·。

我們看看再次進入管道中的日誌資料，Logstash首先對原始日誌資料進行Json解析

這時候我們再看Json解析後的資料，是不是就清晰多了，filebeat採集到的本地機器資料、以及紅色框中Nginx HTTP日誌資料、以及其他標籤資料都進行了欄位分離

做到這一步其實還是不夠好，為什麼呢？一方面因為我們依然希望將Nginx HTTP的日誌資料也進行結構化處理，

另一個方面，Filebeat傳遞給Logstash的系統時間是慢了8個小時的UTC時間標準，反而Nginx日誌中的時間是我們本地的北京時間標準，因此我們希望用Nginx日誌時間作為建立Elasticsearch日誌索引的唯一依據

這時候我們就要使用Logstash的過濾機制了，我們繼續進入Logstash對應的配置中，刪掉過濾配置中的註釋，讓Logstash過濾最常用外掛grok、date、ruby、mutate起作用

grok外掛是專業處理非結構化資料的能手，通過自定義的Nginx日誌正規表示式，就能實現Nginx日誌的結構化解析

date外掛用於處理時間問題，我們通過date外掛將nginx日誌中的時間轉換成Logstash時間物件，並賦給一個新的臨時時間欄位indextime

ruby就是在過濾過程中可以插入ruby指令碼語言來進行程式級處理，我們通過ruby語言對indextime時間格式化，生成一個精確到小時的字串欄位index.date，用於elasticsearch索引名稱

mutate是最常用的可以對管道中資料欄位進行操作的外掛了，我們的目的是刪除臨時時間欄位indextime

最後我們還需要將output輸出中的索引生成方式修改一下，註釋掉原來用filebeat生預設時間生成的索引，改成nginx日誌時間生成的索引。

我們重新執行Logstash，資料經過了Input解碼、日誌grok結構化處理、本地時間物件建立，並進行日期格式化，為了生成新的Elasticsearch索引欄位，並對臨時欄位進行刪除，最終經過Output輸出階段，建立Elasticsearch索引或寫入日誌資料

讓我們看看Elasticsearch最終儲存的資料效果，index索引對應的時間來自過濾器建立的index.date欄位，index.date欄位又來自nginx日誌中分離出的本地時間。這樣我們就不用再去修改Logstash的系統時間了

我們看到菱形標註的欄位資料就是由過濾器對nginx http日誌進行結構化抽取的結果，

同樣elasticsearch依然儲存著nginx日誌的原始資料以備不時之需

前往讀位元組的知乎——瞭解更多關於大資料的知識

公眾號 "讀位元組" 大資料（技術、架構、應用）的深度，專業解讀

linux課堂視訊
2020-04-04
Linux
「視訊小課堂」ELK和Kafka是怎麼就玩在一起成了日誌採集解決方案文字版
2021-03-09
Kafka
教你爬取騰訊課堂、網易雲課堂、mooc等所有課程資訊
2020-04-17
解密騰訊課堂視訊快取檔案
2020-10-27
解密快取
【騰訊課堂】視訊點播上雲實踐
2019-06-27
如何成為資料分析師之課程學習篇
2019-03-07
騰訊課堂：中國女性程式設計師職場力大資料包告
2020-11-18
程式設計師大資料
Flutter小課堂：Text知多少
2019-07-13
Flutter
江民小課堂之防毒引擎
2022-08-02
防毒
如何搭建“網路課堂”
2021-03-16
matlab小課堂01—向量的建立
2018-11-13
Matlab
[番外]-Flutter小課堂-Image篇
2019-07-09
Flutter
華為帳號小課堂 | 容易被忽略的重要設定
2021-07-07
thinkphp開發網易雲課堂-線上IT學習|視訊教程|慕課網
2019-05-11
PHP
乾貨|圖觀™小課堂知識點——場景編輯器
2021-12-09
【視訊分享】尚學堂---資料結構和演算法
2018-11-29
資料結構演算法
Kafka已經成為一個成熟的ETL CDC資料管道平臺
2022-06-12
Kafka
學堂線上影片課件課程下載工具，如何在電腦端下載學堂線上影片課程課件資料PDF,PPT到本地？
2024-11-12
大資料應成為大學課程的重中之重
2019-05-04
大資料
課堂
2018-03-07
大資料測試技術——課堂測試
2024-03-17
大資料
CKafka如何助力騰訊課堂實現百萬訊息穩定互動？
2020-03-24
Kafka
網易雲課堂影片課件課程下載工具，如何在電腦端下載網易雲課堂影片課程課件資料到本地？
2024-11-02
融合通訊常見問題2月刊 | 雲信小課堂
2022-03-02
“小鎮做題家”又如何？
2022-07-23
如何成為公司獨當一面的工程師
2019-11-20
工程師
億歐：2018年騰訊課堂學員資料研究報告（附下載）
2019-01-28
小猴漫畫課堂：雲端計算
2020-11-06
深度解析！短視訊如何成為現象級產品
2018-03-28
乾貨|圖觀™小課堂知識點——進階教程場景效果配置
2021-12-09
如何成為資料分析師系列（一）：視覺化圖表初階
2019-01-02
視覺化
如何成為資料庫管理員（DBA）？
2019-07-26
資料庫
如何成為資料科學家？ - kdnuggets
2020-10-29
資料科學
大資料技術與應用課堂測試-資料清洗同步
2024-04-09
大資料
雲課堂MOOC智慧職教慕課Chrom自動刷視訊+自動答題外掛
2020-10-11
視訊課程-如何跳出forEach迴圈
2019-03-18
線上課堂百萬級訊息如何實現穩定互動？
2020-02-19
極狐GitLab小課堂|如何利用DevOps來償還技術負債？
2021-08-21
Gitlabdev

「視訊小課堂」Logstash如何成為鎮得住場面的資料管道（文字版）

視訊地址

內容

相關文章