Apche日誌系列(4):日誌分析(轉)

post0發表於2007-08-09
Apche日誌系列(4):日誌分析(轉)[@more@]

儘管日誌檔案中包含著大量有用的資訊,但這些資訊只有在經過深入挖掘之後才能夠最大限度地發揮作用。本文首先討論了能夠從日誌檔案獲得的資訊以及不能從日誌檔案獲得的資訊,然後介紹了幾種優秀的日誌分析工具以及如何自己程式設計分析日誌檔案。

一、可以得到哪些資訊(4月4日)

   在這個《Apache日誌》系列文章的前面幾篇中,我們討論了Apache的標準日誌檔案——訪問日誌和錯誤日誌,以及如何定製日誌檔案。本文接下來討論如何分析日誌檔案獲得寶貴的統計資訊。

   我們面臨的問題是,雖然日誌檔案中包含了大量的資訊,但這些資訊對於我們管理、規劃網站卻沒有多少直接的幫助。為了管理和規劃網站,我們需要知道:有多少人瀏覽了網站,他們在看些什麼,停留了多長時間,他們從哪裡得知這個網站,等等。所有這些資訊就隱藏於(或者可能隱藏於)日誌檔案之中。

   就網站的經營者而言,他們還希望知道瀏覽者的姓名、地址、鞋子大小,甚至還有瀏覽者的信用卡號碼,但這些資訊都不可能從日誌檔案中得到。為此,作為技術人員的我們就必須知道如何向這些經營者解釋清楚:這部分資訊不僅不可能從日誌檔案獲得,而且要獲得這些資訊的唯一方法是直接向瀏覽者本人詢問,並作好被拒絕的準備。

   有許多資訊可以用日誌檔案來記錄,其中包括:

遠端機器的地址:“遠端機器的地址”和“誰在瀏覽網站”差不多,但並不等同。具體地說,遠端機器的地址告訴我們瀏覽者來自何方,比如它可能是buglet.rcbowen.com或者proxy01.aol.com。

瀏覽時間:瀏覽者何時開始訪問網站?從這個問題的答案中我們能夠了解不少情況。如果網站的大多數瀏覽者都在早上9:00和下午4:00之間訪問網站,那麼可以相信網站的瀏覽者大多數總在工作時間進行訪問;如果訪問記錄大多出現在下午7:00到午夜之間,我們可以肯定瀏覽者一般在家裡上網。 當然,從單個訪問記錄能夠得到的資訊非常有限,但如果從數千個訪問記錄出發,我們就可以得到非常有用和重要的統計資訊。

使用者所訪問的資源:網站的哪些部分最受使用者歡迎?這些最受歡迎的部分就是我們應該繼續加以發展的部分。網站的哪些部分總是受到冷落?網站中這些受到冷落的部分或許隱藏得太深,或許它們確實沒有什麼意思,此時我們就得想辦法加以改進。當然,網站還有的內容,比如法律上的宣告,雖然很少有人訪問,但卻不應該隨便地改動它們。

無效連結:當然,日誌檔案還能夠告訴我們哪些東西不能按照我們所想象地執行。網站中是否存在錯誤的連結?其他網站連結過來時有沒有搞錯URL?是否存在不能正常執行的CGI程式?是否有搜尋引擎檢索程式每秒發出數千個請求,從而影響了本網站的正常服務?這些問題的答案都可以從日誌檔案找到線索。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8225414/viewspace-937345/,如需轉載,請註明出處,否則將追究法律責任。

相關文章