AIX系統日誌

張衝andy發表於2018-07-09

1、系統錯誤日誌

存放路徑:/var/adm/ras/errlog

說明:該日誌記錄了系統所檢測到的軟硬體故障和錯誤,尤其對系統的硬體故障有很大的參考價值,是AIX提供的最有價值的日誌之一, errlog 檔案用more或者其他文字的檢視命令來開啟我們看到的只是一對亂碼,為了能夠檢視錯誤日誌檔案需要使用aix的errpt命令,如:errpt 列資訊;errpt –a列詳細資訊,詳細使用方法可以參考man

2、使用者的登入日誌

存放路徑:/var/adm/wtmp    /var/adm/sulog

說明:這些日誌記錄了使用者登入和訪問伺服器的情況資訊,具體的日誌檔案有wtmp、、sulog等,它們記錄的分別是不同的事件,wtmp記錄的是歷史的login和lognout資訊,可以用last命令訪問。sulog記錄的是使用者用su命令轉變為另一使用者的資訊。who、last等這些命令可以檢視wtmp和sulog的內容
如:Last –f wtmp
我們想檢視最近10
次登入的使用者和他們的地址,可以用如下命令:
  last -10

3、叢集管理軟體hacmp的日誌

存放路徑:/tmp/hacmp.out

說明:HACMP是IBM提供的確保系統執行可靠性的叢集套件,HACMP在每次啟動和關閉時都要經歷一段時間以停止服務和轉換檔案系統,我們可以透過對HACMP。OUT日誌檔案的跟蹤實時的瞭解HACMP在啟動和關閉時的資訊,如出現啟動失敗則可以幫助我們定位錯誤。

   可以使用tail進行跟蹤,tail –f /tmp/hacmp.out

4、系統啟動錯誤日誌

存放路徑:/var/adm/ras/bootlog

說明:該日誌可以跟蹤系統在Boot過程中發生的問題,包括伺服器液晶板上的程式碼資訊都有記載。可以使用alog命令監視這些問題, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令檢視該檔案。

5、FTP使用者操作日誌

存放路徑:自定義(建議/tmp/ftplog.out

說明:很多伺服器都會用到FTP功能,大量的使用者透過FTP登陸到伺服器上給系統的安全性帶來了很大的問題,AIX給我們提供了一套很不錯的可以記錄使用者FTP操作情況的日誌。

具體設定步驟如下:

在/etc/inetd.conf檔案中編輯 FTP 一行,在FTPD後加“-d”

重啟服務: refresh –s inetd

touch /tmp/ftplog.out

在/etc/syslog.conf檔案中加上兩行:

daemon:debug      /tmp/ftplog.out

daemon:info        /tmp/ftplog.out

重啟服務: refresh –s syslogd


  以上只是我在工作中主要用到的一些日誌,只是AIX給我們提供了很多其他重要的日誌檔案中的一部分,大家可以在工作中慢慢體會。

AIX errpt 命令使用

備查


修改當前的日誌檔案
/usr/lib/errdemon -i /var/adm/ras/myerrlog
修改當前日誌檔案大小
/usr/lib/errdemon -s 28866

修改當前日誌緩衝區大小
/usr/lib/errdemon -B 20480
修改2個重複錯誤之間的間隔時間
/usr/lib/errdemon -t 50

ps -ef | grep errdemon

/usr/lib/errdemon

/usr/lib/errstop
ps -ef | grep errdemon

errpt | more

詳細
errpt -a | pg

以ASCII 方式顯示


errpt -g -j 74533D1A | more

檢查過去24小時內發生的錯誤日誌
date

errpt -a -s 0128092102

errclear 命令清除日誌記錄
刪除所有日誌
errclear 0

刪除10天前的軟體記錄
errclear -d -S 10

 

 

======================

errpt命令

用more或者其他文字的檢視命令來開啟errlog檔案我們看到的只是一對亂碼,為了能夠檢視錯誤日誌檔案需要使用aix的errpt命令。
使用errpt命令檢視日誌,可能根據使用的引數來確定輸出什麼樣的日誌,甚至排序的方式,這是使用純文字的日誌不能做到的,或者說不能輕易做到的。
下面我們來看errpt命令的使用。
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
9DBCFDEE   0109034400 T O errdemon       ERROR LOGGING TURNED ON
192AC071   0109034300 T O errdemon       ERROR LOGGING TURNED OFF
C092AFE4   0109033500 I O ctcasd         ctcasd Daemon Started
A6DF45AA   0109033500 I O RMCdaemon      The daemon is started.
9DBCFDEE   0109033400 T O errdemon       ERROR LOGGING TURNED ON
192AC071   0106130900 T O errdemon       ERROR LOGGING TURNED OFF
369D049B   0106082400 I O SYSPFS         UNABLE TO ALLOCATE SPACE IN FILE SYSTE
這裡的輸出分為六列依次為:
1.錯誤標示符IDENTIFIER:並不唯一,由它來確定使用的錯誤模板,顯然同一種錯誤的IDENTIFIER是相同的。
2.時間戳TIMESTAMP:錯誤發生的時間,MMDDhhmmYY,依次表示月日時分年。
3.型別TYPE:錯誤的型別,或者說嚴重的程度。
分為6個:
PEND        裝置或功能元件可能丟失 簡寫P
PERF        效能嚴重下降        P
PERM        硬體裝置或軟體模組損壞,確診了的 P
TEMP        臨時性錯誤,經過重試後已經恢復正常        T
INFO        一般訊息,不是錯誤                I
UNKN        不能確定錯誤的嚴重性        U
4.種類CLASS c:指出錯誤源
H        硬體或介質故障
S        軟體故障
O        人為錯誤
U        不能確定
5.        資源名RESOURCE_NAME
最初檢測到錯誤的資源名軟體或者硬體,並不代表這個資源有問題,而只是最先在它發現的。
 
errpt -a 報告可能包含下列資訊:
 
LABEL    事件的預定義名稱
IDENTIFIER   事件的數字識別符號
Date/Time   事件的日期和時間
Sequence Number  事件的唯一編號
Machine ID   系統處理器部件的標識號
Node ID    系統的縮寫名(助記名)
Class    錯誤的一般原因。可能的錯誤型別有:
 H   硬體
 S   軟體
 O   指示性資訊
 U   未確定的
Type    發生的錯誤的嚴重性。可能有如下錯誤型別:
 PEND   一個裝置或部件將很快喪失其可用性
 PERF   裝置或部件的效能已降級至可接受的水平以下
 PERM   不可能恢復的狀況。此類錯誤通常是最嚴重的錯誤,並可能意味著硬體裝置或軟體模組損壞。
   除 PERM 之外的錯誤型別通常不代表一個故障,但可透過診斷程式進行分析。
 TEMP   多次不成功的嘗試之後,被恢復的狀況。此錯誤型別也用來記錄指示性的資訊條目,如 DASD 裝置的資料傳輸統計。
 UNKN   不能確定錯誤的嚴重性
 INFO   指示性的錯誤日誌條目,和不是錯誤的結果
Resource Name   發現錯誤的資源名稱。對於軟體錯誤,這是一個軟體部件、或一個可執行程式的名稱。對於硬體錯誤,這是一個裝置、
   或系統部件的名稱。這不表示部件故障、或需要替換。相反,可用來確定用來分析錯誤的適當診斷模組。
Resource Class   發現故障的資源通用類。(如,disk 裝置類)
Resource Type   發現故障的資源型別
Location Code   裝置的路徑。可能有多達四個欄位,分別涉及 drawer(抽屜)、slot(插槽)、connector(聯結器)、port(埠)。
VPD    關鍵產品資料(Vital product data)。該欄位的內容是多種多樣的。裝置的錯誤日誌條目比較典型地,
   返回關於裝置廠商、序列號、工程變動級別、只讀儲存器級別等方面的資訊。
Description   錯誤的摘要
Probable Cause   列出一些可能導致錯誤的原因
User Causes   列出一些使用者誤操作導致故障的可能原因。
   不正確地插入的磁碟和外部裝置(如 modems 和 prints)不能被開啟,就是使用者導致錯誤的例子。
Actions    描述校正使用者導致的錯誤的推薦操作
Install Causes   列出由於不正確的安裝或配置過程而導致故障的可能性原因。
   此類錯誤的例子包含:硬體和軟體不匹配、電纜或線纜連線不正確而鬆動、不正確地配置系統。
Actions    描述校正安裝導致錯誤的推薦操作
Failure Causes   列出硬體、或軟體可能的缺陷/故障(defect)
Actions    描述校正故障的推薦操作。對於硬體錯誤,會執行診斷程式。
Detailed Data   對於每一個錯誤日誌條目都是唯一的故障資料,如裝置 sense 資料。
 
比如:
# errpt -aj 4B219AEA|more
---------------------------------------------------------------------------
LABEL:          LVM_GS_CHILDGONE
IDENTIFIER:     4B219AEA
Date/Time:       Wed Dec  5 18:12:31 BEIST 2007
Sequence Number: 1917
Machine Id:      00028057D600
Node Id:         localhost
Class:           U
Type:            PERM
Resource Name:   LIBLVM          
Resource Class:  NONE
Resource Type:   NONE
Location:        
VPD:            
Description
Concurrent LVM daemon forced Volume Group offline
 
Probable Causes
Unrecoverable event detected by Concurrent LVM daemon
Failure Causes
Lost communication with remote nodes
Lost quorum
        Recommended Actions
        Ensure Cluster daemons are running
        CHECK ERROR LOG FOR ADDITIONAL RELATED ENTRIES
        Attempt to bring the Concurrent Volume Group back online
        IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
Volume Group ID
0001 CCCD 0000 D600 0000 0114 16BE 3BDC 
MAJOR/MINOR DEVICE NUMBER
0000 0000 
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
Duplicates
Number of duplicates
           1
Time of first duplicate
Wed Dec  5 08:48:00 BEIST 2007
Time of last duplicate
Wed Dec  5 08:48:17 BEIST 2007

 

轉載自:http://blog.sina.com.cn/s/blog_5ded2e5b0100ix7f.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31383567/viewspace-2157554/,如需轉載,請註明出處,否則將追究法律責任。

相關文章