我試了試用 SQL查 Linux日誌，好用到飛起

大雄45發表於2021-09-27

原文網址 : http://blog.itpub.net/69955379/viewspace-2786071/

大家好，我是小富~

最近發現點好玩的工具，迫不及待的想跟大家分享一下。

大家平時都怎麼查Linux日誌呢？
像我平時會用tail、head、cat、sed、more、less這些經典系統命令，或者awk這類三方資料過濾工具，配合起來查詢效率很高。但在使用過程中有一點讓我比較頭疼，那就是命令引數規則太多了，記的人腦殼疼。

那查日誌有沒有一種通用的方式，比如用SQL查詢，畢竟這是程式設計師都比較熟悉的表示式。

今天分享的工具q，就實現了以寫SQL的方式來查詢、統計文字內容，一起看看這貨到底有什麼神奇之處。

搭個環境

q是一個命令列工具，允許我們在任意檔案或者查詢結果，比如可以在ps -ef查詢程式命令的結果集上，直接執行SQL語句查詢。

宗旨就是文字即資料庫表，額～，當然這句話是我自己理解的，哈哈哈

它將普通檔案或者結果集當作資料庫表，幾乎支援所有的SQL結構，如WHERE、GROUP BY、JOINS等，支援自動列名和列型別檢測，支援跨檔案連線查詢，這兩個後邊詳細介紹，支援多種編碼。

安裝比較簡單，在Linux CentOS環境，只要如下三步搞定，Windows環境更是隻需安裝個exe就可以用了。

wget https://github.com/harelba/q/releases/download/1.7.1/q-text-as-data-1.7.1-1.noarch.rpm #下載版本

sudo rpm -ivh q-text-as-data-1.7.1-1.noarch.rpm # 安裝

q --version  #檢視安裝版本

官方文件：https://harelba.github.io/q

語法

q支援所有SQLiteSQL語法，標準命令列格式q + 引數命令 + "SQL"

q <命令> "<SQL>"

我要查詢myfile.log檔案的內容，直接q "SELECT * FROM myfile.log"。

q "SELECT * FROM myfile.log"

q不附加引數使用是完全沒有問題的，但利用引數會讓顯示結果更加美觀，所以這裡簡單瞭解一下，它的引數分為 2種。

input輸入命令：指的是對要查詢的檔案或結果集進行操作，比如：-H命令，表示輸入的資料包含標題行。

q -H "SELECT * FROM myfile.log"

在這種情況下，將自動檢測列名，並可在查詢語句中使用。如果未提供此選項，則列將自動命名為cX，以c1起始以此類推。

q  "select c1，c2 from ..."

output輸出命令：作用在查詢輸出的結果集，比如：-O，讓查詢出來的結果顯示列名。

[root@iZ2zebfzaequ90bdlz820sZ software]# ps -ef | q -H "select count(UID) from - where UID='root'"
104
[root@iZ2zebfzaequ90bdlz820sZ software]# ps -ef | q -H -O "select count(UID) from - where UID='root'"
count(UID)
104

還有很多引數就不一一列舉了，感興趣的同學在官網上看下，接下來我們重點演示一下使用SQL如何應對各種查詢日誌的場景。

玩法賊多

下邊我們們一起看幾個查詢日誌的經常場景中，這個SQL該如何寫。

1、關鍵字查詢

關鍵字檢索，應該是日常開發使用最頻繁的操作，不過我個人認為這一點q並沒有什麼優勢，因為它查詢時必須指定某一列。

[root@iZ2zebfzaequ90bdlz820sZ software]# q "select * from douyin.log where c9 like '%待解析%'"
2021-06-11 14:46:49.323 INFO 22790 --- [nio-8888-exec-2] c.x.douyin.controller.ParserController : 待解析URL :url=https%3A%2F%2Fv.douyin.com%2Fe9g9uJ6%2F                                             
2021-06-11 14:57:31.938 INFO 22790 --- [nio-8888-exec-5] c.x.douyin.controller.ParserController : 待解析URL :url=https%3A%2F%2Fv.douyin.com%2Fe9pdhGP%2F                                             
2021-06-11 15:23:48.004 INFO 22790 --- [nio-8888-exec-2] c.x.douyin.controller.ParserController : 待解析URL :url=https%3A%2F%2Fv.douyin.com%2Fe9pQjBR%2F                                             
2021-06-11 2

而用grep命令則是全文檢索。

[root@iZ2zebfzaequ90bdlz820sZ software]# cat douyin.log | grep '待解析URL'
2021-06-11 14:46:49.323  INFO 22790 --- [nio-8888-exec-2] c.x.douyin.controller.ParserController   : 待解析URL :url=https%3A%2F%2Fv.douyin.com%2Fe9g9uJ6%2F
2021-06-11 14:57:31.938  INFO 22790 --- [nio-8888-exec-5] c.x.douyin.controller.ParserController   : 待解析URL :url=https%3A%2F%2Fv.douyin.com%2Fe9pdhGP%2F

2、模糊查詢

like模糊搜尋，如果文字內容列有名字直接用列名檢索，沒有則直接根據列號c1、c2、cN。

[root@iZ2zebfzaequ90bdlz820sZ software]# cat test.log 
abc
2
3
4
5
23
24
25
[root@iZ2zebfzaequ90bdlz820sZ software]# q -H -t "select * from test.log where abc like '%2%'"
Warning: column count is one - did you provide the correct delimiter?
2
23
24
25

3、交集並集

支援UNION和UNION ALL操作符對多個檔案取交集或者並集。

如下建了test.log和test1.log兩個檔案，裡邊的內容有重疊，用union進行去重。

q -H -t "select * from test.log union select * from test1.log"

[root@iZ2zebfzaequ90bdlz820sZ software]# cat test.log 
abc
2
3
4
5
[root@iZ2zebfzaequ90bdlz820sZ software]# cat test1.log 
abc
3
4
5
6
[root@iZ2zebfzaequ90bdlz820sZ software]# q -H -t "select * from test.log union select * from test1.log"
Warning: column count is one - did you provide the correct delimiter?
Warning: column count is one - did you provide the correct delimiter?
2
3
4
5
6

4、內容去重

比如統計某個路徑下的./clicks.csv檔案中，uuid欄位去重後出現的總個數。

q -H -t "SELECT COUNT(DISTINCT(uuid)) FROM ./clicks.csv"

5、列型別自動檢測

注意：q會理解每列是數字還是字串，判斷是根據實數值比較，還是字串比較進行過濾，這裡會用到-t命令。

q -H -t "SELECT request_id,score FROM ./clicks.csv WHERE score > 0.7 ORDER BY score DESC LIMIT 5"

6、欄位運算

讀取系統命令查詢結果，計算/tmp目錄中每個使用者和組的總值。可以對欄位進行運算處理。

sudo find /tmp -ls | q "SELECT c5,c6,sum(c7)/1024.0/1024 AS total FROM - GROUP BY c5,c6 ORDER BY total desc"

[root@iZ2zebfzaequ90bdlz820sZ software]# sudo find /tmp -ls | q "SELECT c5,c6,sum(c7)/1024.0/1024 AS total FROM - GROUP BY c5,c6 ORDER BY total desc"
www www 8.86311340332
root root 0.207922935486
mysql mysql 4.76837158203e-06

7、資料統計

統計系統擁有最多程式數的前 3個使用者ID，按降序排序，這就需要和系統命令配合使用了，先查詢所有程式再利用SQL篩選，這裡的q命令就相當grep命令。

ps -ef | q -H "SELECT UID,COUNT(*) cnt FROM - GROUP BY UID ORDER BY cnt DESC LIMIT 3"

[root@iZ2zebfzaequ90bdlz820sZ software]# ps -ef | q -H "SELECT UID,COUNT(*) cnt FROM - GROUP BY UID ORDER BY cnt DESC LIMIT 3"
root 104
www 16
rabbitmq 4
[root@iZ2zebfzaequ90bdlz820sZ software]# ps -ef | q -H -O "SELECT UID,COUNT(*) cnt FROM - GROUP BY UID ORDER BY cnt DESC LIMIT 3"
UID cnt
root 110
www 16
rabbitmq 4

我們看到加與不加-O命令的區別就是否顯示查詢結果的標題。

8，連檔案查

一般情況下，我們的日誌檔案會按天分割成很多個固定容量的子檔案，在沒有統一的日誌收集伺服器的情況下，如果不給個報錯時間區間去查一個關鍵詞，那麼無異於大海撈針。

如果可以將所有檔案內容合併後在查就會省事很多，q支援將檔案像資料庫表那樣聯合查詢。

q -H "select * from douyin.log a join douyin-2021-06-18.0.log b on (a.c2=b.c3) where b.c1='root'"

總結

看完可能會有人抬槓：q寫這麼多程式碼直接用awk不香嗎？額～介紹這個工具的初衷並不是說要替換現有哪種工具，而是多提供一種更為便捷的查日誌方法。

我也有在用awk確實很強大沒得說，但這裡邊涉及到一個學習成本的問題，琳琅滿目的命令、匹配規則想玩轉還是要下點功夫的。而對於新手程式設計師稍微有點資料庫經驗，寫SQL問題都不大，上手q則會容易的多。

整理了幾百本各類技術電子書，送給小夥伴們。關注公號回覆【666】自行領取。和一些小夥伴們建了一個技術交流群，一起探討技術、分享技術資料，旨在共同學習進步，如果感興趣就加入我們吧！

電子書地址

說了你不信！用 SQL查 Linux日誌，真的好用到飛起
2021-06-21
SQLLinux
RecyclerView 配合 DiffUtil，好用到飛起
2019-03-04
View
linux查詢日誌技巧
2018-04-03
Linux
ELK太重？試試KFC日誌採集
2021-08-20
為了學好Java，我嘗試了這 6 個方法
2019-10-30
Java
【Spring】日誌列印sql，日誌配置列印sql
2024-11-08
SpringSQL
Linux 查詢日誌相關命令
2020-01-08
Linux
『學了就忘』Linux日誌管理 — 92、日誌輪替
2021-12-24
Linux
起飛前檢查
2024-03-15
『學了就忘』Linux日誌管理 — 90、Linux中日誌介紹
2021-12-23
Linux
『學了就忘』Linux日誌管理 — 93、日誌輪替補充
2021-12-24
Linux
在輕量應用伺服器上的學習日誌（嘗試失敗了）
2021-11-18
伺服器
好用到飛起的12個jupyter lab外掛
2020-07-24
面試三輪我倒在了一道sql題上——sql效能優化
2020-06-04
面試SQL優化
對比測試工具平臺讓財務測試飛起來
2018-12-14
SQL查詢中用到的函式
2018-05-14
SQL函式
『學了就忘』Linux日誌管理 — 91、日誌服務rsyslogd說明
2021-12-23
Linux
這樣配置，讓你的 IDEA 好用到飛起來！
2020-10-09
Idea
在SQL Server上測試事務日誌的自動增長（三）QO
2022-03-22
SQLServer
在SQL Server上測試事務日誌的自動增長（二）TG
2022-03-22
SQLServer
在SQL Server上測試事務日誌的自動增長（一）JP
2022-03-22
SQLServer
Cmocka 單元測試日誌記錄
2024-04-15
Mock
移動應用後臺不是技術專屬，運營也該用到飛起
2018-06-29
Windows終端好難用?試試gitbash吧!
2018-05-27
WindowsGit
linux日誌管理
2019-05-12
Linux
39,日誌列印sql 配置
2018-11-18
SQL
SQL Server 收縮日誌
2020-09-18
SQLServer
Laravel sql 日誌記錄
2019-04-30
LaravelSQL
神奇的 SQL 之效能優化 → 讓 SQL 飛起來
2021-01-05
SQL優化
關於MySQL 通用查詢日誌和慢查詢日誌分析
2018-10-10
MySql
Ubuntu玩機記錄，讓我破電腦又飛起來了
2023-02-11
Ubuntu
Android測試日誌檔案抓取與分析
2019-05-10
Android
如何啟用Hibernate慢查詢日誌？ -Vlad Mihalcea
2020-02-26
我攤牌了，大廠面試Linux就這5個問題
2020-12-08
面試Linux
日誌脫敏工具用什麼好，效果槓槓？
2021-10-22
SQL面試題三（單表、多表查詢）
2018-05-04
SQL面試題
我們測試了上萬款應用程式，總結了APP測試流程和常見問題
2019-11-22
APP
Linux C日誌log
2019-01-11
Linux

我試了試用 SQL查 Linux日誌，好用到飛起

搭個環境

語法

玩法賊多

總結

相關文章