使用Python解析nginx日誌檔案

發表於2016-04-07

專案的一個需求是解析nginx的日誌檔案。
簡單的整理如下：

日誌規則描述

首先要明確自己的Nginx的日誌格式，這裡採用預設Nginx日誌格式：

 log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                   '$status $body_bytes_sent "$http_referer" '
                   '"$http_user_agent" "$http_x_forwarded_for"';

log_format main '$remote_addr - $remote_user [$time_local] "$request" '

'$status $body_bytes_sent "$http_referer" '

'"$http_user_agent" "$http_x_forwarded_for"';

其中一條真實記錄樣例如下：

172.22.8.207 - - [16/Dec/2014:17:57:35 +0800] "GET /report?DOmjjuS6keWJp+WculSQAgdUkAIPODExMzAwMDJDN0FC HTTP/1.1" 200 0 "-" "XXXXXXX/1.0.16; iPhone/iOS 8.1.2; ; 8DA77E2F91D0"

1	172.22.8.207 - - [16/Dec/2014:17:57:35 +0800] "GET /report?DOmjjuS6keWJp+WculSQAgdUkAIPODExMzAwMDJDN0FC HTTP/1.1" 200 0 "-" "XXXXXXX/1.0.16; iPhone/iOS 8.1.2; ; 8DA77E2F91D0"

其中，客戶端型號資訊用XXXXXXX代替。

專案中已經按照業務規則對Nginx日誌檔案進行了處理命名規則如下：

ID-ID-YYMMDD-hhmmss

1	ID-ID-YYMMDD-hhmmss

並且所有的日誌檔案存放在統一路徑下。

解決思路

獲取所有日誌檔案`path`

這裡使用Python的glob模組來獲取日誌檔案path

import glob
def readfile(path):
    return glob.glob(path + '*-*-*-*')

import glob

def readfile(path):

return glob.glob(path + '*-*-*-*')

獲取日誌檔案中每一行的內容

使用Python的linecache模組來獲取檔案行的內容

import linecache
def readline(path):
    return linecache.getlines(path)

import linecache

def readline(path):

return linecache.getlines(path)

注意：linecache模組使用了快取，所以存在以下問題：

在使用linecache模組讀取檔案內容以後，如果檔案發生了變化，那麼需要使用linecache.updatecache(filename)來更新快取，以獲取最新變化。
linecache模組使用快取，所以會耗費記憶體，耗費量與要解析的檔案相關。最好在使用完畢後執行linecache.clearcache()清空一下快取。

當然，作為優化，這裡可以利用生成器來進行優化。暫且按下不表。

處理日誌條目

一條日誌資訊就是一個特定格式的字串，因此使用正規表示式來解析，這裡使用Python的re模組。
下面，一條一條建立規則：

規則

    ip = r"?P[d.]*"
    date = r"?Pd+"
    month = r"?Pw+"
    year = r"?Pd+"
    log_time = r"?PS+"
    method = r"?PS+"
    request = r"?PS+"
    status = r"?Pd+"
    bodyBytesSent = r"?Pd+"
    refer = r"""?P
             [^"]*
             """
    userAgent=r"""?P
                .*
               """

ip = r"?P[d.]*"

date = r"?Pd+"

month = r"?Pw+"

year = r"?Pd+"

log_time = r"?PS+"

method = r"?PS+"

request = r"?PS+"

status = r"?Pd+"

bodyBytesSent = r"?Pd+"

refer = r"""?P

[^"]*

"""

userAgent=r"""?P

"""

解析

p = re.compile(r"(%s) - - [(%s)/(%s)/(%s):(%s) [S]+] "(%s)?[s]?(%s)?.*?" (%s) (%s) "(%s)" "(%s).*?"" %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE)
m = re.findall(p, logline)

1 2	p = re.compile(r"(%s) - - [(%s)/(%s)/(%s):(%s) [S]+] "(%s)?[s]?(%s)?.?" (%s) (%s) "(%s)" "(%s).?"" %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE) m = re.findall(p, logline)

這樣，就可以得到日誌條目中各個要素的原始資料。

格式及內容轉化

得到日誌原始資料之後，需要根據業務要求，對原始資料進行格式及內容轉化。
這裡需要處理的內容包括：時間，request，userAgent

時間格式轉化

在日誌資訊原始資料中存在Dec這樣的資訊，利用Python的time模組可以方便的進行解析

import time

def parsetime(date, month, year, log_time):
    time_str = '%s%s%s %s' %(year, month, date, log_time)
    return time.strptime(time_str, '%Y%b%d %H:%M:%S')

import time

def parsetime(date, month, year, log_time):

time_str = '%s%s%s %s' %(year, month, date, log_time)

return time.strptime(time_str, '%Y%b%d %H:%M:%S')

解析request

在日誌資訊原始資料中得到的request的內容格式為：

/report?XXXXXX

1	/report?XXXXXX

這裡只需要根據協議取出XXXXXX即可。
這裡仍然採用Python的re模組

import re
def parserequest(rqst):
    param = r"?P.*"
    p = re.compile(r"/report?(%s)" %param, re.VERBOSE)
    return re.findall(p, rqst)

import re

def parserequest(rqst):

param = r"?P.*"

p = re.compile(r"/report?(%s)" %param, re.VERBOSE)

return re.findall(p, rqst)

接下來需要根據業務協議解析引數內容。這裡需要先利用base64模組解碼，然後再利用struct模組解構內容：

import struct
import base64
def parseparam(param):
    decodeinfo = base64.b64decode(param)
    s = struct.Struct('!x' + bytes(len(decodeinfo) - (1 + 4 + 4 + 12)) + 'xii12x')
    return s.unpack(decodeinfo)

import struct

import base64

def parseparam(param):

decodeinfo = base64.b64decode(param)

s = struct.Struct('!x' + bytes(len(decodeinfo) - (1 + 4 + 4 + 12)) + 'xii12x')

return s.unpack(decodeinfo)

解析userAgent

在日誌資訊原始資料中userAgent資料的格式為：

XXX; XXX; XXX; XXX

1	XXX; XXX; XXX; XXX

根據業務要求，只需要取出最後一項即可。
這裡採用re模組來解析。

import re

def parseuseragent(useragent):
    agent = r"?P.*"
    p = re.compile(r".*;.*;.*;(%s)" %agent, re.VERBOSE)
    return re.findall(p, useragent)

import re

def parseuseragent(useragent):

agent = r"?P.*"

p = re.compile(r".*;.*;.*;(%s)" %agent, re.VERBOSE)

return re.findall(p, useragent)

至此，nginx日誌檔案解析基本完成。
剩下的工作就是根據業務需要，對獲得的基本資訊進行處理。
（完）

Nginx訪問日誌、Nginx日誌切割、靜態檔案不記錄日誌和過期時間
2017-11-07
Nginx
使用配置檔案方式記錄Python程式日誌
2020-11-16
Python
【Oracle日誌】- 日誌檔案重建
2011-01-24
Oracle
日誌檔案
2014-10-30
日誌檔案使用小結(轉)
2019-03-15
使用外部表讀日誌檔案
2007-04-11
使用logrotate管理日誌檔案
2009-07-23
logrotate
Nginx配置檔案解析
2016-04-06
Nginx
Nginx 訪問日誌實時解析 ngxtop
2014-04-01
Nginx
日誌檔案和歸檔日誌檔案的關係以及如何切換日誌
2014-08-04
Linux下玩轉nginx系列（三）---nginx日誌配置檔案說明
2022-03-15
LinuxNginx
刪除日誌檔案組與日誌檔案成員
2012-03-12
日誌服務之使用Nginx模式採集日誌
2022-04-24
Nginx模式
使用goaccess統計nginx日誌
2024-06-10
GoNginx
使用logrotate 管理日誌檔案(轉)
2007-08-15
logrotate
管理日誌檔案
2016-10-15
dump日誌檔案
2009-04-09
APACHE日誌檔案
2007-10-08
Apache
Nginx配置檔案示例解析
2017-11-15
Nginx
控制檔案/歸檔日誌
2009-03-12
增加日誌檔案，修改當前日誌檔案大小
2011-03-30
selenium-日誌檔案的使用(十二)
2019-02-16
使用外部表訪問警告日誌檔案
2017-05-05
對日誌檔案組和日誌檔案組成員的管理
2010-01-12
通過helm部署EFK收集應用日誌，ingress-nginx日誌解析。
2021-07-01
應用日誌Nginx
【MySQL日誌】MySQL日誌檔案初級管理
2021-01-05
MySql
PeopleSoft日誌檔案清理
2014-01-21
oracle 日誌檔案管理
2013-11-28
Oracle
日誌檔案的管理
2015-01-27
清空SqlServer日誌檔案
2014-10-09
SQLServer
記錄日誌檔案
2013-09-13
日誌檔案系統
2008-07-21
日誌檔案的大小
2010-04-13
日誌檔案問題
2012-02-01
Nginx日誌配置
2019-09-23
Nginx
nginx切割日誌
2017-12-26
Nginx
nginx日誌切割
2012-07-24
Nginx
nginx 清空日誌
2024-11-21
Nginx