IBM-P630、P650、B80 P650 本地硬碟更換

sundayhe發表於2011-05-19

IBM-P630、P650、B80 P650 本地硬碟更換


1.操作說明
1)適用平臺:Software: AIX 5.2 + HACMP5.1
Hardware: PowerPC_POWER4 P630、P650、B80 Dual 、P650 Dual、B80 Dual
說明:
本手冊用於指導在IBM PowerPC_POWER4P630、P650、B80、P650、B80雙機上更換本地硬碟.。
2)可以透過以下命令來確定當前主用機:
#lsvg -o
如果輸出中有datavg,則當前主機即為主用機.
3). 更換過程中任何一步驟輸出異常,根據螢幕列印檢視錯誤日誌,進行排錯。如果操作不成功,除非特殊說明,不允許進行後續操作。
4). 本文以一號主機為例,說明一號主機本地硬碟更換過程。
2 smitty mksysb 備份系統和倒換測試
說明:
系統備份在兩臺小型機上進行。
本步驟可以安排客戶自行做好資料備份。
系統備份只是備份本地硬碟資料,如果在主用機上備份時,會佔用一部分的系統資源,所以在備份的時候,先把應用進行切換。
說明:
由於更換硬碟不當可能導致系統級問題,因此,務必做好雙機系統檔案備份。

下面以server1為主機,server2為備機情況為例
2.1 備份2號主機資料
說明:
在進行server2的系統之前,確保server2不是當前資源組的主節點,否則需要將資源組從server2切換到server1。

(1) 在備用主機上插入磁帶,執行以下命令。
smitty mksysb
(2) 在Backup DEVICE or FILE域中按,選擇/dev/rmt0。
/dev/rmt0 SCSI 4mm Tape Drive
(3) 選擇完成後,按回車執行。
該步驟大約需要1小時,系統提示OK後,按[ESC+0]退出。
(4) 執行
mt rewind
mt offline
(5) 取出磁帶
並在磁帶標籤上寫上:
mksysb。
2.2 倒換測試
說明:
在進行server1的系統備份之前,需要使所有資源組切換到server2,使得server2成為資源組主節點。

# sync; sync
# clstop -gry -N
倒換時間在一般在2-4分鐘內。等待5分鐘後往下執行:
# /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server1重啟動HA
# rsh server2
# 在server2器上檢測是否成功倒換
server2> lsvg -o
# 看一下是否有datavg
做幾項簡單的撥打測試,確保正確透過。
2.3 備份1號主機資料
(1) 在1號主機上插入磁帶,執行以下命令。
server1 > smitty mksysb
(2) 在Backup DEVICE or FILE域中按,選擇/dev/rmt0。
/dev/rmt0 SCSI 4mm Tape Drive
(3) 選擇完成後,按回車執行。
該步驟大約需要1小時,系統提示OK後,按[CTRL+C]退出。
(4) 執行
# mt rewind
# mt offline
(5) 取出磁帶
並在磁帶標籤上寫上:
server1 mksysb。
2.3 倒換測試
說明:
在server1備份完之後,將所有資源組切換回server1,準備在server1上進行應用資料備份。

server2> sync; sync
server2> clstop -gry -N
等待5分鐘,確保倒換完成後往下執行:
server2> /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server2重啟動HA
# lsvg -o
# 在1號主機上,檢視是否有datavg
再次做一下簡單的撥打測試,確保透過。
3 應用資料備份
說明:
在對不同的HLR產品的應用資料進行備份時,備份指令碼路徑以及生成備份檔案路徑各不相同,請參考下列描述。

在主用機上執行,如果此時server1為主用機.
將共享盤上oracle資料備份到server1器並copy到server2器。
[ GSM ]
hwhlr-ph1> /opt/gsmhlr/tools/backup/backupmt.sh
Now do exporting ......... OK
Now copy the backup file to another computer's disk ...... Done
Today is Fri Dec 16 15:30:14 GMT 2022, Data will be backuped to tape.
... ...
檢查是否有對應的備份檔案產生,注意新檔案的產生時間為當前時間。
hwhlr-ph1> ls –al /opt/gsmhlr/sysbackup/userdata/*

[ CDMA ]
hwhlr-ph1> /opt/cdmahlr/tools/backup/backupmt.sh
Now do exporting ......... OK
Now copy the backup file to another computer's disk ...... Done
Today is Fri Dec 16 15:30:14 GMT 2022, Data will be backuped to tape.
... ...
檢查是否有對應的備份檔案產生,注意新檔案的產生時間為當前時間。
hwhlr-ph1> ls –al /opt/cdmahlr/sysbackup/userdata/*

[9820]
# /opt/hlr/tools/backup/backupmt.sh hdu
Now do exporting ......... OK
Now copy the backup file to another computer's disk ...... Done
Today is Fri Dec 16 15:30:14 GMT 2022, Data will be backuped to tape.
... ...
檢查是否有對應的備份檔案產生,注意新檔案的產生時間為當前時間。
# ls –al /opt/hlr/sysbackup/userdata/*

4 應用檢查
4.1 替換主用機本地硬碟先將應用倒換到備用機執行
說明:
在對server1進行硬碟更換之前,請務必先將應用切換到server2,否則可能會導致業務中斷。

# clstop -gry -N
倒換時間在一般在2-4分鐘內。等待5分鐘後往下執行:
# /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server1重啟動HA
# rsh server2
# 在server2器上檢測是否成功倒換
server2> lsvg -o
# 看一下是否有datavg
做幾項簡單的撥打測試,確保正確透過。
4.2 替換備用機硬碟不需要切換應用
說明:
如果需要更換硬碟的機器當前沒有任何應用,不需要進行應用切換。

5 檢查硬體和errpt log
# errpt -dH
server2> errpt -dH
如何判斷硬碟硬體錯誤?
在root使用者下執行errpt -dH,
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
16F35C72 1011115506 P H hdisk0 DISK OPERATION ERROR
16F35C72 1011075106 P H hdisk0 DISK OPERATION ERROR
16F35C72 1011034606 P H hdisk0 DISK OPERATION ERROR
49A83216 1011002006 T H hdisk0 DISK OPERATION ERROR
49A83216 1011001706 T H hdisk0 DISK OPERATION ERROR
49A83216 1011001606 T H hdisk0 DISK OPERATION ERROR
49A83216 1010234606 T H hdisk0 DISK OPERATION ERROR
檢查T列是否有T類和P類錯誤,有T類和P類錯誤行對應的hdiskX即為有錯誤的硬碟。
T類錯誤:臨時錯誤;P類錯誤:永久錯誤。

6 檢視壞的hdd的資訊(s/n , scsi id)
說明:
在確定了錯誤的硬碟之後,檢視錯誤硬碟資訊,確定錯誤硬碟物理位置。

server1 > lscfg -vl hdiskX
server1 > lsdev -Cc disk
說明:
僅在存在壞盤主機上執行。
此處的diskX中的X為壞盤的盤號。
如何確定OS識別到硬碟與物理位置對應關係?
在root使用者下執行lscfg -vl hdiskX
顯示如下:
hdiskX U0.1-P2/Z1-A9 16 Bit LVD SCSI Disk Drive (36400 MB)
其中紅色字型部分可能出現字元為8,9,a,b,分別對應硬碟物理插框位置。
在root使用者下執行lsdev –Cc disk
顯示如下:
hdiskX Available 1S-08-00-8,0 16 Bit LVD SCSI Disk Drive
其中紅色字型部分可能出現字元為8,9,a,b,分別對應硬碟物理插框位置。
對於同一塊硬碟,lscfg與lsdev對應字元一致,對應硬碟插框位置。
對應關係如下:

上方編號8,9,10,11為機器插框外編號。
下方編號8,9,a,b為OS中識別到的編號。
在進行更換硬碟之前,需要確定好壞硬碟的物理位置,以免更換錯誤。
7 拆映象
說明:
在更換硬碟之前,首先需要對進行映象的磁碟去映象,接著從rootvg中將壞掉的硬碟拆分出來。

server1 > unmirrorvg rootvg hdiskX
server1 > reducevg rootvg hdiskX
8 修改啟動次序
說明:
在去映象之後,需要系統boot裝置順序修改,只將正常硬碟加入到boot裝置列表中。

server1 > bootlist -om normal hdiskY
這裡的hdiskY為正常硬碟在OS裡的邏輯名稱。
9 關機更換hdd
說明:
更換硬碟時,請注意對應上面識別到的物理位置。

10 加電
11 配置hdd: cfgmgr -v
server1 > lsdev -Cc disk
server1 > rmdev -dl hdiskX
server1 > cfgmgr -v
server1 > lsdev -Cc disk
12 新的hdd加入rootvg:
server1 > chdev -l hdiskX -a pv=yes
server1 > extendvg rootvg hdiskX
13 映象rootvg
server1 > mirrorvg rootvg hdiskX
14 bos image
server1 > bosboot -ad /dev/hdiskX
15 重新修改啟動次序
server1 > bootlist -m normal hdisk0 hdisk1 cd0 rmt0
更新NVRAM中的引導裝置標。
16 檢查硬體和errpt log
# errpt -dH
# diag
server2> errpt -dH
server2> diag
17 啟動應用和hacmp
說明:
啟動HA在兩臺小型機上進行。
啟動cluster的目的是驗證cluster配置是否正常,並將啟動cluster的程式碼寫入/etc/inittab中。
server1 > /usr/es/sbin/cluster/etc/rc.cluster -boot -i
18 替換server1本地硬碟需要將應用倒換回1號主機
server2> sync; sync
server2> clstop -gry -N
等待5分鐘,確保倒換完成後往下執行:
server2> /usr/es/sbin/cluster/etc/rc.cluster -boot -i
# server2重啟動HA
# lsvg -o
# 到1號主機上檢視是否有datavg
再次做一下簡單的撥打測試,確保透過。
注意:
替換2號主機本地硬碟,本步驟不需要操作。
19 清除系統所有故障記錄
server2> errclear 0
# errclear 0

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/9479798/viewspace-1050084/,如需轉載,請註明出處,否則將追究法律責任。

相關文章