Vector + ClickHouse 收集日誌

SRETalk發表於2024-03-15

目前業界的日誌生態,最常用的是 ELK,其次就是 ClickHouse,本文會演示如何使用 Vector + ClickHouse 來採集 Nginx 日誌並做清洗,最終寫入 ClickHouse。至於日誌的視覺化,後面再單獨介紹,後面夜鶯會把日誌視覺化能力下放到開源版本,之前跟映客的兄弟們交流準備一起搞,可惜遲遲沒有抽出時間。別急,會有的,本文先把前半段完成,即日誌的收集 + 傳輸 + 清洗 + 儲存。儲存顯然是 ClickHouse,前面三個環節,使用 Vector 來完成。之前有一篇文章對 Vector 做過簡單介紹,大家可以參考:《可觀測性資料收集集大成者:Vector》。

配置 Nginx log

我們可以直接採集預設的 Nginx access log,不過我們可以走的更遠一點,使用我們自定義的日誌格式:

log_format track '$remote_addr - $time_iso8601 "$request_uri" '
                 '$status $body_bytes_sent "$http_user_agent"';
server {
  location / {
    access_log /var/log/track.log track;
    return 200 'ok';
  }
}

這個配置會把所有請求記錄到 /var/log/track.log 檔案中,樣例如下:

127.0.0.1 - 2022-08-01T17:19:38+03:00 "/?test=1" 200 2 "curl/7.81.0"

這個日誌是因為使用 curl 發起了一個如下請求:

curl "http://127.0.0.1/?test=1"

ClickHouse 表結構

下面我們建立一個 ClickHouse 表結構,用於儲存 Nginx 日誌,一般生產環境下,都是每個應用單獨一個表,這樣可以讓不同的應用使用不同的日誌欄位,同時做了縱向切分,避免所有的日誌存在一個表中導致表過大,影響查詢效能。

CREATE TABLE log
(
    `ip` String,
    `time` Datetime,
    `url` String,
    `status` UInt8,
    `size` UInt32,
    `agent` String
)
ENGINE = MergeTree
ORDER BY date(time)

這個表基本夠演示所用了。

安裝 Vector

Vector 是一個用於構建資料傳輸 pipeline 的工具。它開箱即用支援 ClickHouse。使用 Vector Remap Language (VRL) 可以對日誌進行清洗,把非結構化的資料清洗成結構化資料。

安裝 Vector 較為簡單,在 Ubuntu 上,可以使用如下命令:

curl -1sLf 'https://repositories.timber.io/public/vector/cfg/setup/bash.deb.sh' | sudo -E bash
sudo apt install vector

完事使用如下命令檢查版本,如果正常輸出,表示安裝成功:

root@desktop:~# vector --version
vector 0.23.0 (x86_64-unknown-linux-gnu 38c2435 2022-07-11)

配置 pipeline

使用 Vector 配置日誌流水線非常容易。整體上就是三步:採集 -> 處理 -> 輸出,每個階段都對應 Vector 配置中的 section,當然,採集可以有很多來源,處理也可以分多個環節,輸出也可以有很多目的地。

20240307175218

配置檔案:/etc/vector/vector.toml,基礎步驟包括:

  • 1.[sources.***] 配置資料從哪裡採集
  • 2.[transforms.***] 配置資料如何清洗處理
  • 3.[sinks.***] 配置資料輸出到哪裡

*** 的位置,是一個自定義的名字,可以隨便取,但是要保證唯一。無論是 sources、transforms 還是 sinks,都可以有多個。

採集資料

我們故意修改了 Nginx 的日誌格式,我們需要手工配置 pipeline。/var/log/track.log 日誌檔案內容現在是非結構化的,首先我們要用 Vector 讀取它。

[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"

這裡我們讓 Vector 讀取指定的日誌檔案,從檔案末尾讀取,只要 Nginx 有新的日誌寫入,Vector 就會讀取到。

清洗資料

為了得到結構化的資料,我們在 VRL 中使用帶有捕獲組的正規表示式來處理每一行日誌,這部分配置到 transforms 中。

[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P<ip>\d+\.\d+\.\d+\.\d+) \- (?P<date>\d+\-\d+\-\d+)T(?P<time>\d+:\d+:\d+).+?"(?P<url>.+?)" (?P<status>\d+) (?P<size>\d+) "(?P<agent>.+?)"$')
'''

Transform 部分的程式碼在 source 欄位中,這段程式碼會解析日誌並且把正則捕獲組得到的資訊放到對應的欄位中。這些欄位最終會被髮給 ClickHouse。transform 有多種不同的型別,這裡我們使用了 remap 型別,inputs 欄位指定了輸入源,這裡是 track,即我們之前定義的源,inputs 是個陣列,所以 transform 可以同時對接到多個 source 上。

儲存資料

在把資料存到 ClickHouse 之前,讓我們來檢查一下資料是否正確。我們可以使用 console sink 來輸出到控制檯,這樣我們可以看到 Vector 處理後的資料。

[sinks.print]
type = "console"
inputs = ["process"]
encoding.codec = "json"

這裡定義了一個 sink:print,它的輸入是 process,即我們之前定義的 transform。console sink 會把資料輸出到控制檯,encoding.codec 欄位指定了輸出的格式,這裡是 json。如上配置都儲存在 /etc/vector/vector.toml,然後使用互動模式執行 vector:

root@desktop:~# vector

使用 url 發起一個請求:127.0.0.1/?test=3,然後檢視控制檯輸出:

root@desktop:~# vector
...
2022-08-01T14:52:54.545197Z  INFO source{component_kind="source" component_id=track component_type=file component_name=track}:file_server: vector::internal_events::file::source: Resuming to watch file. file=/var/log/track.log file_position=497
{"agent":"curl/7.81.0","date":"2022-08-01","file":"/var/log/track.log","host":"desktop","ip":"127.0.0.1","message":"127.0.0.1 - 2022-08-01T17:52:58+03:00 \"/?test=3\" 200 2 \"curl/7.81.0\"","size":"2","source_type":"file","status":"200","time":"17:52:58","timestamp":"2022-08-01T14:53:04.803689692Z","url":"/?test=3"}

我們可以看到,除了解析出的欄位之外,還有一些額外的欄位,比如 timestamphostmessage 等,這些欄位是 Vector 自動新增的。在資料最終發給 ClickHouse 之前,我們還需要在 transform 過程做一些額外的處理:

  • 1.基於解析出的 datetime 欄位建立一個單獨的 datetime 欄位
  • 2.把 statussize 欄位轉換成整型

這兩個改動都可以在 transforms 部分完成。

[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P<ip>\d+\.\d+\.\d+\.\d+) \- (?P<date>\d+\-\d+\-\d+)T(?P<time>\d+:\d+:\d+).+?"(?P<url>.+?)" (?P<status>\d+) (?P<size>\d+) "(?P<agent>.+?)"$')
.status = to_int!(.status)
.size = to_int!(.size)
.time = .date + " " + .time
'''

. 就相當於當前這條日誌記錄,.status 就是當前這條日誌記錄的 status 欄位,to_int! 就是把 status 字串轉換成整型,+ 就是字串拼接,最終把 datetime 欄位拼接成 datetime 欄位。這樣我們就完成了資料的清洗。再次發起請求,檢視控制檯輸出:

{"agent":"curl/7.81.0","date":"2022-08-01","file":"/var/log/track.log","host":"desktop","ip":"127.0.0.1","message":"127.0.0.1 - 2022-08-01T18:05:44+03:00 \"/?test=3\" 200 2 \"curl/7.81.0\"","size":2,"source_type":"file","status":200,"time":"2022-08-01 18:05:44","timestamp":"2022-08-01T15:05:45.314800884Z","url":"/?test=3"}

一切如預想。最終,我們可以配置資料儲存到 ClickHouse,增加一個 sink 配置段,之前那個輸出到 console 的 sink 可以刪除了。

[sinks.clickhouse]
type = "clickhouse"
inputs = ["process"]
endpoint = "http://127.0.0.1:8123"
database = "default"
table = "log"
skip_unknown_fields = true

這裡我們讓 Vector 讀取 process 這個 transform 環節產生的資料,然後發給 ClickHouse 中的 default 資料庫中的 log 表。另外,我們增加了 skip_unknown_fields 配置項來跳過未知欄位,這樣即使我們的日誌格式發生了變化,也不會影響資料的寫入。

OK,儲存配置檔案,重啟 Vector,向 Nginx 發一些測試資料,然後,我們就可以在 ClickHouse 中看到相關日誌資料了。

20240307192124

推到生產環境

vector 要在生產環境執行,就不要使用互動模式啟動前臺程序了,使用 systemd 或者 supervisord 之類的做程序託管。

效能考慮

我的電腦是 16C32G,可以輕鬆處理 2 萬個請求每秒。需要幾秒鐘資料才能進入 ClickHouse,或許我們需要考慮使用 ClickHouse Buffer 表來最佳化插入效能。

小結

Vector 是一個很不錯的工具,很方便的把 Nginx 日誌採集、清洗、傳輸到 ClickHouse,Vector 提供強大的資料清洗能力,可以處理任何型別的非結構化資料。Cool。

下面是整個 vector.toml 的內容:

[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"
[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P<ip>\d+\.\d+\.\d+\.\d+) \- (?P<date>\d+\-\d+\-\d+)T(?P<time>\d+:\d+:\d+).+?"(?P<url>.+?)" (?P<status>\d+) (?P<size>\d+) "(?P<agent>.+?)"$')
.status = to_int!(.status)
.size = to_int!(.size)
.time = .date + " " + .time
'''
[sinks.clickhouse]
type = "clickhouse"
inputs = ["process"]
endpoint = "http://127.0.0.1:8123"
database = "default"
table = "log"
skip_unknown_fields = true

本文翻譯自:https://medium.com/datadenys/using-vector-to-feed-nginx-logs-to-clickhouse-in-real-time-197745d9e88b ,感謝作者的分享。


本公眾號主理人:秦曉輝,極客時間《運維監控系統實戰筆記》作者,Open-Falcon、夜鶯、Categraf、Cprobe 等開源專案的創始人,當前在創業,為客戶提供可觀測性相關的產品。如下是我們兩款核心產品,歡迎訪問我們的官網瞭解詳情:

  • https://flashcat.cloud/

我們主要提供兩款產品:

20240307192910

歡迎加我好友,交流可觀測性相關話題或瞭解我們的商業產品,如下是我的聯絡方式,加好友請備註您的公司、姓名、來意 🤝

20240307193146

擴充套件閱讀:

  • 方法論:面向故障處理的可觀測性體系建設
  • 小總結:從CTO視角來看:如何搭建運維/SRE能力
  • 鄙人專欄:運維監控系統實戰筆記

相關文章