可觀測性資料收集集大成者 Vector 介紹

SRETalk發表於2023-10-13

原文網址 : https://www.cnblogs.com/ulricqin/p/17762086.html

如果企業提供 IT 線上服務，那麼可觀測效能力是必不可少的。“可觀測性” 這個詞近來也越發火爆，不懂 “可觀測性” 都不好意思出門了。但是可觀測效能力的構建卻著實不易，每個企業都會用到一堆技術棧來組裝建設。比如資料收集，可能來自某個 exporter，可能來自 telegraf，可能來自 OTEL，可能來自某個日誌檔案，可能來自 statsd，收集到資料之後還需要做各種過濾、轉換、聚合、取樣等操作，煩不勝煩，今天我們就給大家介紹一款開源的資料收集+路由器工具：Vector，解除你的上述煩惱。

Vector 簡介

Vector 通常用作 logstash 的替代品，logstash 屬於 ELK 生態，使用廣泛，但是效能不太好。Vector 使用 Rust 編寫，聲稱比同類方案快 10 倍。Vector 來自 Datadog，如果你瞭解監控、可觀測性，大機率知道 Datadog，作為行業老大哥，其他小弟拍馬難及。Datadog 在 2021 年左右收購了 Vector，現在 Vector 已經開源，地址是：

主站：https://vector.dev/

倉庫：https://github.com/vectordotdev/vector

Vector 不止是收集、路由日誌資料，也可以路由指標資料，甚至可以從日誌中提取指標，功能強大。下面是 Vector 的架構圖：

20230927150020

看起來和其他同類產品是類似的，核心就是 pipeline 的處理，有 Source 端做採集，有中間的 Transform 環節做資料加工處理，有 Sink 端做資料轉發。魔鬼在細節，Vector 有如下一些特點，讓它顯得卓爾不群：

超級快速可靠：Vector採用Rust構建，速度極快，記憶體效率高，旨在處理最苛刻的工作負載
端到端：Vector 致力於成為從 A 到 B 獲取可觀測性資料所需的唯一工具，並作為守護程式、邊車或聚合器進行部署
統一：Vector 支援日誌和指標，使您可以輕鬆收集和處理所有可觀測性資料
供應商中立：Vector 不偏向任何特定的供應商平臺，並以您的最佳利益為出發點，培育公平、開放的生態系統。免鎖定且面向未來
可程式設計轉換：Vector 的高度可配置轉換為您提供可程式設計執行時的全部功能。無限制地處理複雜的用例

Vector 安裝

Vector 的安裝比較簡單，一條命令即可搞定，其他安裝方式可以參考其官方文件。

curl --proto '=https' --tlsv1.2 -sSf https://sh.vector.dev | bash

Vector 配置測試

Vector 的配置檔案可以是 yaml、json、toml 格式，下面是一個 toml 的例子，其作用是讀取 /var/log/system.log 日誌檔案，然後把 syslog 格式的日誌轉換成 json 格式，最後輸出到標準輸出：

[sources.syslog_demo]
type = "file"
include = ["/var/log/system.log"]
data_dir = "/Users/ulric/works/vector-test"

[transforms.remap_syslog]
inputs = [ "syslog_demo"]
type = "remap"
source = '''
  structured = parse_syslog!(.message)
  . = merge(., structured)
'''

[sinks.emit_syslog]
inputs = ["remap_syslog"]
type = "console"
encoding.codec = "json"

首先，[sources.syslog_demo] 定義了一個 source，取名為 syslog_demo，這個 source 的型別是 file，表示從檔案中讀取資料，檔案路徑是 /var/log/system.log，data_dir 是儲存 checkpoint 資料不用關心，只要給一個可寫的目錄就行（Vector 自用）。然後定義了一個 transform，名字為 remap_syslog，指定這個 transform 的資料來源（即上游）是 syslog_demo，其型別是 remap，remap 是 Vector 裡非常重要的一個 transform，可以做各類資料轉換，在 source 欄位裡定義了一段程式碼，其工作邏輯是：

來自 syslog_demo 這個 source 的日誌資料，日誌原文在 message 欄位裡（除了日誌原文 message 欄位，Vector 還會對採集的資料附加 host、timestamp 等欄位），需要先解析成結構化的資料，透過 parse_syslog 這個函式做轉換
轉換之後，相當於把非結構化的日誌資料轉換成了結構化的資料，賦值給 structured 變數，然後透過 merge 函式把結構化的這個資料和原始就有的 host、timestamp 等欄位合併，然後把合併的結果繼續往 pipeline 後續環節傳遞

[sinks.emit_syslog] 定義了一個 sink，名字是 emit_syslog，透過 inputs 指明瞭上游資料來自 remap_syslog 這個 transform，透過 type 指明要把資料輸出給 console，即控制檯，然後透過 encoding.codec 指定輸出的資料格式是 json。然後透過下面的命令啟動 Vector：

vector -c vector.toml

然後，你就會看到一堆的日誌輸出（當然，前提是你的機器上有 system.log 這個檔案，我是 macbook，所以用的這個檔案測試的），樣例如下：

ulric@ulric-flashcat vector-test % vector -c vector.toml
...
{"appname":"syslogd","file":"/var/log/system.log","host":"ulric-flashcat.local","hostname":"ulric-flashcat","message":"ASL Sender Statistics","procid":332,"source_type":"file","timestamp":"2023-09-27T07:31:22Z"}

如上，就說明正常採集到了資料，而且轉換成了 json 並列印到了控制檯，實驗成功。當然，列印到控制檯只是個測試，Vector 可以把資料推給各類後端，典型的比如 ElasticSearch、S3、ClickHouse、Kafka 等。

Vector 部署模式

Vector 可以部署為兩個角色，既可以作為資料採集的 agent，也可以作為資料聚合、路由的 aggregator，架構示例如下：

20230927153626

當 Vector 作為 agent 的時候，又有兩種使用模式：Daemon 和 Sidecar。Daemon 模式旨在收集單個主機上的所有資料，這是資料收集的推薦方式，因為它最有效地利用主機資源。比如把 Vector 部署為 DaemonSet，收集這個機器上的所有容器中應用的日誌，容器中的應用的日誌推薦使用 stdout 方式列印，符合雲原生 12 條要素。架構圖如下：

20230927153955

當然，也可以使用 Sidecar 模式部署，這樣佔用的資源更多（畢竟，每個 Pod 裡都要塞一個 Vector 容器），但是更靈活，服務所有者可以隨意搞自己的日誌收集方案，不用依賴統一的日誌收集方案。架構圖如下：

20230927154214

Vector 總結

夜鶯社群裡已經有很多小夥伴從 logstash 遷移到了 Vector，並普遍表示 Vector YYDS，如果你還沒聽過 Vector，趕緊去試試吧。其他的我也不囉嗦，請各位移步 Vector 官方文件，本文最重要的價值就是讓你知道有這麼個好東西 :-)

擴充套件閱讀：

Golang Agent 可觀測性的全面升級與新特性介紹
2024-10-27
Golang
Istio可觀測性
2020-09-03
Dapr-可觀測性
2021-11-28
DevOps專題 |監控，可觀測性與資料儲存
2019-11-13
dev
使用 OpenTelemetry 的 .NET 可觀測性
2024-03-09
解碼eBPF可觀測性：eBPF如何改變我們所知的觀測性
2023-10-10
eBPF
深入理解LLM的可觀測性
2024-09-24
可觀測性建設路線圖
2024-07-30
開源可觀測性平臺SigNoz
2023-03-26
Obsuite：混合雲可觀測性中臺
2021-01-19
UI
資料介面測試工具 Postman 介紹
2021-09-09
Postman
MYTFA(MYSQL 診斷資訊收集工具)介紹
2023-03-02
MySql
如何利用資料庫的可觀測效能力
2022-08-24
資料庫
.Net微服務實戰之可觀測性
2021-09-29
微服務
Vector + ClickHouse 收集日誌
2024-03-15
smartctl 屬性資訊介紹
2024-06-03
雲原生ASP.NET Core程式的可監測性和可觀察性
2021-05-27
ASP.NET
規則引擎整合新的可觀測性框架
2022-11-07
框架
讀資料保護：工作負載的可恢復性02收集需求
2024-12-03
負載
IBM宣佈收購Databand.ai 把握資料可觀測性的市場機會
2022-07-08
IBMAI
資料庫介紹
2022-01-24
資料庫
日誌收集之filebeat使用介紹
2021-04-20
使用InfluxDB時間序列資料功能構建可觀察性
2022-03-20
UX
阿里雲日誌服務SLS攜手觀測雲釋出可觀測性解決方案，共建可觀測應用創新
2022-11-07
阿里
觀察者模式介紹
2021-12-03
模式
手把手教你學Dapr - 9. 可觀測性
2022-01-20
Dubbo 可觀測性實踐之 Metrics 功能解析
2022-11-02
淺談微服務的發展以及可觀測性
2022-05-20
微服務
Kubernetes 穩定性保障手冊 -- 可觀測性專題
2021-04-01
OpenTelemetry - 雲原生下可觀測性的新標準
2021-01-12
簡單介紹雲端計算可觀察性的五個關鍵和新興趨勢
2021-11-11
演講實錄｜博睿資料副總裁楊雪松：可觀測性建設之路（上）
2024-01-05
MNIST資料集介紹
2019-10-12
nuPlan資料集介紹
2024-11-06
Cora 資料集介紹
2022-05-17
Java併發程式設計-volatile可見性的介紹
2018-05-17
Java程式設計
MySQL樂觀鎖和悲觀鎖介紹
2018-05-07
MySql
從問題分析的入口談國產資料庫與Oracle在可觀測性方面的差距
2023-11-30
資料庫Oracle