IBM-P630、P650、B80 P650 本地硬碟更換

1.操作說明
1)適用平臺：Software: AIX 5.2 + HACMP5.1
Hardware: PowerPC_POWER4 P630、P650、B80 Dual 、P650 Dual、B80 Dual
說明:
本手冊用於指導在IBM PowerPC_POWER4P630、P650、B80、P650、B80雙機上更換本地硬碟.。
2)可以透過以下命令來確定當前主用機：
#lsvg -o
如果輸出中有datavg，則當前主機即為主用機.
3). 更換過程中任何一步驟輸出異常，根據螢幕列印檢視錯誤日誌，進行排錯。如果操作不成功，除非特殊說明，不允許進行後續操作。
4). 本文以一號主機為例，說明一號主機本地硬碟更換過程。
2 smitty mksysb 備份系統和倒換測試
說明：
系統備份在兩臺小型機上進行。
本步驟可以安排客戶自行做好資料備份。
系統備份只是備份本地硬碟資料，如果在主用機上備份時，會佔用一部分的系統資源，所以在備份的時候，先把應用進行切換。
說明：
由於更換硬碟不當可能導致系統級問題，因此，務必做好雙機系統檔案備份。

下面以server1為主機，server2為備機情況為例
2.1 備份2號主機資料
說明：
在進行server2的系統之前，確保server2不是當前資源組的主節點，否則需要將資源組從server2切換到server1。

(1) 在備用主機上插入磁帶，執行以下命令。
smitty mksysb
(2) 在Backup DEVICE or FILE域中按或，選擇/dev/rmt0。
/dev/rmt0 SCSI 4mm Tape Drive
(3) 選擇完成後，按回車執行。
該步驟大約需要1小時，系統提示OK後，按[ESC+0]退出。
(4) 執行
mt rewind
mt offline
(5) 取出磁帶
並在磁帶標籤上寫上：
mksysb。
2.2 倒換測試
說明：
在進行server1的系統備份之前，需要使所有資源組切換到server2，使得server2成為資源組主節點。

# sync; sync
# clstop -gry -N
倒換時間在一般在2-4分鐘內。等待5分鐘後往下執行：
# /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server1重啟動HA
# rsh server2
# 在server2器上檢測是否成功倒換
server2> lsvg -o
# 看一下是否有datavg
做幾項簡單的撥打測試，確保正確透過。
2.3 備份1號主機資料
(1) 在1號主機上插入磁帶，執行以下命令。
server1 > smitty mksysb
(2) 在Backup DEVICE or FILE域中按或，選擇/dev/rmt0。
/dev/rmt0 SCSI 4mm Tape Drive
(3) 選擇完成後，按回車執行。
該步驟大約需要1小時，系統提示OK後，按[CTRL+C]退出。
(4) 執行
# mt rewind
# mt offline
(5) 取出磁帶
並在磁帶標籤上寫上：
server1 mksysb。
2.3 倒換測試
說明：
在server1備份完之後，將所有資源組切換回server1，準備在server1上進行應用資料備份。

server2> sync; sync
server2> clstop -gry -N
等待5分鐘，確保倒換完成後往下執行：
server2> /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server2重啟動HA
# lsvg -o
# 在1號主機上，檢視是否有datavg
再次做一下簡單的撥打測試，確保透過。
3 應用資料備份
說明：
在對不同的HLR產品的應用資料進行備份時，備份指令碼路徑以及生成備份檔案路徑各不相同，請參考下列描述。

在主用機上執行,如果此時server1為主用機.
將共享盤上oracle資料備份到server1器並copy到server2器。
[ GSM ]
hwhlr-ph1> /opt/gsmhlr/tools/backup/backupmt.sh
Now do exporting ......... OK
Now copy the backup file to another computer's disk ...... Done
Today is Fri Dec 16 15:30:14 GMT 2022, Data will be backuped to tape.
... ...
檢查是否有對應的備份檔案產生,注意新檔案的產生時間為當前時間。
hwhlr-ph1> ls –al /opt/gsmhlr/sysbackup/userdata/*

[ CDMA ]
hwhlr-ph1> /opt/cdmahlr/tools/backup/backupmt.sh
Now do exporting ......... OK
Now copy the backup file to another computer's disk ...... Done
Today is Fri Dec 16 15:30:14 GMT 2022, Data will be backuped to tape.
... ...
檢查是否有對應的備份檔案產生,注意新檔案的產生時間為當前時間。
hwhlr-ph1> ls –al /opt/cdmahlr/sysbackup/userdata/*

[9820]
# /opt/hlr/tools/backup/backupmt.sh hdu
Now do exporting ......... OK
Now copy the backup file to another computer's disk ...... Done
Today is Fri Dec 16 15:30:14 GMT 2022, Data will be backuped to tape.
... ...
檢查是否有對應的備份檔案產生,注意新檔案的產生時間為當前時間。
# ls –al /opt/hlr/sysbackup/userdata/*

4 應用檢查
4.1 替換主用機本地硬碟先將應用倒換到備用機執行
說明：
在對server1進行硬碟更換之前，請務必先將應用切換到server2，否則可能會導致業務中斷。

# clstop -gry -N
倒換時間在一般在2-4分鐘內。等待5分鐘後往下執行：
# /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server1重啟動HA
# rsh server2
# 在server2器上檢測是否成功倒換
server2> lsvg -o
# 看一下是否有datavg
做幾項簡單的撥打測試，確保正確透過。
4.2 替換備用機硬碟不需要切換應用
說明：
如果需要更換硬碟的機器當前沒有任何應用，不需要進行應用切換。

5 檢查硬體和errpt log
# errpt -dH
server2> errpt -dH
如何判斷硬碟硬體錯誤？
在root使用者下執行errpt －dH，
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
16F35C72 1011115506 P H hdisk0 DISK OPERATION ERROR
16F35C72 1011075106 P H hdisk0 DISK OPERATION ERROR
16F35C72 1011034606 P H hdisk0 DISK OPERATION ERROR
49A83216 1011002006 T H hdisk0 DISK OPERATION ERROR
49A83216 1011001706 T H hdisk0 DISK OPERATION ERROR
49A83216 1011001606 T H hdisk0 DISK OPERATION ERROR
49A83216 1010234606 T H hdisk0 DISK OPERATION ERROR
檢查T列是否有T類和P類錯誤，有T類和P類錯誤行對應的hdiskX即為有錯誤的硬碟。
T類錯誤：臨時錯誤；P類錯誤：永久錯誤。

6 檢視壞的hdd的資訊（s/n , scsi id)
說明：
在確定了錯誤的硬碟之後，檢視錯誤硬碟資訊，確定錯誤硬碟物理位置。

server1 > lscfg -vl hdiskX
server1 > lsdev -Cc disk
說明：
僅在存在壞盤主機上執行。
此處的diskX中的X為壞盤的盤號。
如何確定OS識別到硬碟與物理位置對應關係？
在root使用者下執行lscfg -vl hdiskX
顯示如下：
hdiskX U0.1-P2/Z1-A9 16 Bit LVD SCSI Disk Drive (36400 MB)
其中紅色字型部分可能出現字元為8，9，a，b，分別對應硬碟物理插框位置。
在root使用者下執行lsdev –Cc disk
顯示如下：
hdiskX Available 1S-08-00-8,0 16 Bit LVD SCSI Disk Drive
其中紅色字型部分可能出現字元為8，9，a，b，分別對應硬碟物理插框位置。
對於同一塊硬碟，lscfg與lsdev對應字元一致，對應硬碟插框位置。
對應關係如下：

上方編號8，9，10，11為機器插框外編號。
下方編號8，9，a，b為OS中識別到的編號。
在進行更換硬碟之前，需要確定好壞硬碟的物理位置，以免更換錯誤。
7 拆映象
說明：
在更換硬碟之前，首先需要對進行映象的磁碟去映象，接著從rootvg中將壞掉的硬碟拆分出來。

server1 > unmirrorvg rootvg hdiskX
server1 > reducevg rootvg hdiskX
8 修改啟動次序
說明：
在去映象之後，需要系統boot裝置順序修改，只將正常硬碟加入到boot裝置列表中。

server1 > bootlist -om normal hdiskY
這裡的hdiskY為正常硬碟在OS裡的邏輯名稱。
9 關機更換hdd
說明：
更換硬碟時，請注意對應上面識別到的物理位置。

10 加電
11 配置hdd: cfgmgr -v
server1 > lsdev -Cc disk
server1 > rmdev -dl hdiskX
server1 > cfgmgr -v
server1 > lsdev -Cc disk
12 新的hdd加入rootvg:
server1 > chdev -l hdiskX -a pv=yes
server1 > extendvg rootvg hdiskX
13 映象rootvg
server1 > mirrorvg rootvg hdiskX
14 bos image
server1 > bosboot -ad /dev/hdiskX
15 重新修改啟動次序
server1 > bootlist -m normal hdisk0 hdisk1 cd0 rmt0
更新NVRAM中的引導裝置標。
16 檢查硬體和errpt log
# errpt -dH
# diag
server2> errpt -dH
server2> diag
17 啟動應用和hacmp
說明：
啟動HA在兩臺小型機上進行。
啟動cluster的目的是驗證cluster配置是否正常，並將啟動cluster的程式碼寫入/etc/inittab中。
server1 > /usr/es/sbin/cluster/etc/rc.cluster -boot -i
18 替換server1本地硬碟需要將應用倒換回1號主機
server2> sync; sync
server2> clstop -gry -N
等待5分鐘，確保倒換完成後往下執行：
server2> /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server2重啟動HA
# lsvg -o
# 到1號主機上檢視是否有datavg
再次做一下簡單的撥打測試，確保透過。
注意：
替換2號主機本地硬碟，本步驟不需要操作。
19 清除系統所有故障記錄
server2> errclear 0
# errclear 0

[@more@]

IBM-P630、P650、B80 P650 本地硬碟更換

相關文章