AIX系統故障處理

roninwei發表於2006-06-29

系統不能啟動

系統Stage 1 可能為電系統板CPU 等硬體故障記錄故障代

碼通知IBM

系統Stage 2 可能是啟動順序表(bootlist)損壞I/O系統故障可嘗試進入SMS 選單檢查啟動順序表修改在選擇bootlist時沒有硬碟裝置可選或顯示的硬碟資訊不正確則可能是硬碟故障若根本沒有SCSI裝置可選則鏈路有問題

系統Stage3 可能是硬碟資料損壞系統設定檔案出錯或I/O系統故障

.系統551 555557

發生在系統啟動的第三階段 (Stage 3) 可能是

檔案系統損壞

檔案系統日(jfslog)損壞

rootvg中有硬碟

修復方法

用系統盤或系統備份啟動必須與硬碟中的作業系統本一

啟動後選擇選3

"Start Maintenance Mode for System Recovery"

> "Access a Root Volume Group"

> "Access this volume group and start a shell

before mounting the file systems"

格式化檔案系統日(jfslog)

# /usr/sbin/logform /dev/hd8

檢查修復檔案系統

# fsck -y /dev/hd1 /home 檔案系統

# fsck -y /dev/hd2 /usr 檔案系統

# fsck -y /dev/hd3 /tmp 檔案系統

# fsck -y /dev/hd4 / 檔案系統

# fsck -y /dev/hd9var /var 檔案系統

... ...

exit 命令退出檔案系統會自動 mount 起來

bootimage

# lslv -m hd5 bootimage所在的硬碟如hdisk0

# bosboot -ad /dev/hdisk0

# bootlist -m normal /dev/hdisk0 啟動順序表

重啟動系統

# shutdown -Fr

如上述步驟奏效

用系統備份帶恢復系統

如備份不能複用診斷Diagnostic CDROM 檢查是否硬碟

.系統dump

發生在系統崩潰時AIX會做dump(系統內快照)

時機器會顯示閃動的888 102 xxx 0cx 程式碼

0c9 系統dump 進行中0c9狀態可能會維持超過2

不要關電和按reset, 等待dump做完

0c0 dump 完成時可以斷電重起

0c2 手動啟動dump

0c4 dump 裝置空間只有分資訊儲存下來

0c5 原因導致dump 失敗

一般dump於軟體出錯引起(888-102-207 ) 機器通常可以重啟重啟

時可能提示使用者磁帶複製dump檔案不要選擇退這樣丟失重要的故障信

dump的有關設定

估算系統dump的大小在系統最繁忙時內使用最多

# sysdumpdev -e

0453-041 Estimated dump size in bytes: 53477376

# lsps -a

Page Space Physical Volume Volume Group Size %Used Active

paging00 hdisk0 rootvg 480MB 1 yes

hd6 hdisk1 rootvg 544MB 1 yes

的設定

#sysdumpdev -l

primary /dev/hd6 的主裝置

secondary /dev/sysdumpnull

copy directory /var/adm/ras 複製的

forced copy flag TRUE

always allow dump TRUE

hd6比估算值稍

/var/adm/ras 預設dump複製比較估算值保證/var檔案系統有足夠

剩餘空間複製dump檔案否機器重起時會提示使用者磁帶

dump檔名為vmcore.#

PCI機型如要手動做dump 須把" always allow dump" 設成true

# sysdumpdev -K

dump

# snap -a -o /dev/rmt#

# snap -a -c /tmp/ibmsupt錄做成一個壓縮檔案

snap.tar.Z/tmp檔案系統空間

可用-d directory 引數指定別的錄代

/tmp/ibmsupt

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7507082/viewspace-846246/,如需轉載,請註明出處,否則將追究法律責任。

相關文章