用系統日誌瞭解你的 Linux 系統

發表於2017-12-22

本文摘自為 Linux 小白(或者非資深桌面使用者)傳授技巧的系列文章。該系列文章旨在為 LinuxMagazine 釋出的第 30 期特別版 “Linux 入門” (基於 openSUSE Leap )提供補充說明。

本文作者是 Romeo S.,她是一名基於 PDX 的企業 Linux 專家,專注於為創新企業提供富有伸縮性的解決方案。

Linux 系統日誌非常重要。後臺執行的程式(通常被稱為守護程式或者服務程式)處理了你 Linux 系統中的大部分任務。當這些守護程式工作時,它們將任務的詳細資訊記錄進日誌檔案中,作為它們做過什麼的“歷史”資訊。這些守護程式的工作內容涵蓋從使用原子鐘同步時鐘到管理網路連線。所有這些都被記錄進日誌檔案,這樣當有錯誤發生時,你可以通過查閱特定的日誌檔案來看出發生了什麼。

Photo by Markus Spiske on Unsplash

在你的 Linux 計算機上有很多不同的日誌。歷史上,它們一般以純文字的格式儲存到 /var/log 目錄中。現在依然有很多日誌這樣做,你可以很方便的使用 less 來檢視它們。

在新裝的 openSUSE Leap 42.3 以及大多數現代作業系統上,重要的日誌由 systemd 初始化系統儲存。 systemd這套系統負責啟動守護程式,並在系統啟動時讓計算機做好被使用的準備。由 systemd 記錄的日誌以二進位制格式儲存,這使得它們消耗的空間更小,更容易被瀏覽,也更容易被匯出成其他各種格式,不過壞處就是你必須使用特定的工具才能檢視。好在這個工具已經預安裝在你的系統上了:它的名字叫 journalctl,而且預設情況下,它會將每個守護程式的所有日誌都記錄到一個地方。

只需要執行 journalctl 命令就能檢視你的 systemd 日誌了。它會用 less 分頁器顯示各種日誌。為了讓你有個直觀的感受, 下面是 journalctl 中摘錄的一條日誌記錄:

這條獨立的日誌記錄以此包含了記錄的日期和時間、計算機名、記錄日誌的程式名、記錄日誌的程式 PID,以及日誌內容本身。

若系統中某個程式執行出問題了,則可以檢視日誌檔案並搜尋(使用 / 加上要搜尋的關鍵字)程式名稱。有可能導致該程式出問題的錯誤會記錄到系統日誌中。 有時,錯誤資訊會足夠詳細到讓你能夠修復該問題。其他時候,你需要在 Web 上搜尋解決方案。 Google 就很適合來搜尋奇怪的 Linux 問題。不過搜尋時請注意你只輸入了日誌的實際內容,行首的那些資訊(日期、主機名、程式 ID) 對搜尋來說是無意義的,會干擾搜尋結果。

解決方法一般在搜尋結果的前幾個連線中就會有了。當然,你不能只是無腦得執行從網際網路上找到的那些命令:請一定先搞清楚你要做的事情是什麼,它的效果會是什麼。據說,搜尋系統日誌中的特定條目要比直接描述該故障通用關鍵字要有用的多。因為程式出錯有很多原因,而且同樣的故障表現也可能由多種問題引發的。

比如,系統無法發聲的原因有很多,可能是播放器沒有插好,也可能是聲音系統出故障了,還可能是缺少合適的驅動程式。如果你只是泛泛的描述故障表現,你會找到很多無關的解決方法,而你也會浪費大量的時間。而專門搜尋日誌檔案中的實際內容,你也許會查詢出其它人也有相同日誌內容的結果。

你可以對比一下圖 1 和圖 2。

圖 1 搜尋系統的故障表現只會顯示泛泛的,不精確的結果。這種搜尋通常沒什麼用。

圖 2 搜尋特定的日誌行會顯示出精確的,有用的結果。這種搜尋通常很有用。

也有一些系統不用 journalctl 來記錄日誌。在桌面系統中最常見的這類日誌包括用於記錄 openSUSE 包管理器的行為的 /var/log/zypper.log; 記錄系統啟動時訊息的 /var/log/boot.log ,開機時這類訊息往往滾動的特別快,根本看不過來;/var/log/ntp 用來記錄 Network Time Protocol (NTP)守護程式同步時間時發生的錯誤。 另一個存放硬體故障資訊的地方是 “Kernel Ring Buffer”(核心環狀緩衝區),你可以輸入 demesg -H 命令來檢視(這條命令也會呼叫 less 分頁器來檢視)。“Kernel Ring Buffer” 儲存在記憶體中,因此會在重啟電腦後丟失。不過它包含了 Linux 核心中的重要事件,比如新增了硬體、載入了模組,以及奇怪的網路錯誤.

希望你已經準備好深入瞭解你的 Linux 系統了! 祝你玩的開心!

相關文章