RAC資料庫一節點更換HBA卡導致emc儲存裝置序號變動處理記錄

lpwebnet發表於2014-02-08
 

RAC資料庫一節點更換HBA卡導致emc儲存裝置序號變動處理記錄

環境簡介:

作業系統 redhat linux 5.5

資料庫  Oracle  RAC 10.2.0.4

儲存   EMC  

多路徑  PowerPath

需求:

客戶方一套oracle RAC系統,其中一個節點的機器壞了一個HBA卡,需要更換。

作為資料庫技術人員,我協助配合,和同事一起處理該事情。

實施:

同事之前查閱資料,表示更換同型號的HBA卡,比較簡單,操作步驟為停RAC節點,停機器,換hba卡,啟動機器,啟RAC節點例項相關服務。

和客戶方負責人溝通,申請了中午停機時間一個半小時,本以為足夠了,誰知後來的情況異常曲折。

停節點例項及相關服務,停機,很順利;

問題:

取下壞的HBA卡,換上新的HBA卡,啟動系統,兩塊HBA卡都沒有被識別到

重啟,還是識別不到;

換上壞的HBA卡,啟動機器,原來的都識別不了了;

打電話,查資料,廠商的意見是同型號的HBA卡更換後,需要反覆重啟機器,肯定能識別到;

將信將疑,幾次重啟後,果然識別到了,但是emc儲存裝置序號好多都變了,節點例項起不來,實際上是crs起不來,報錯CRS-0184 ,無法訪問OCR物理裝置;

最開始crs服務沒有起來,root  /etc/init.d/init.crs  start 

Oracle   crs_start -all 始終 報錯CRS-0184

/tmp目錄下有生成一些crs相關的臨時日誌檔案報錯

再次停機,將壞的HBA卡光纖線拔掉,fdisk –l

powermt display dev=all

fdisk –l|grep ‘ ‘  比對節點1和節點2的裝置名稱,然後將節點2上變化的裝置序號重新命名調整為和節點1一致,因為之前兩個節點上識別的裝置序號就是一致的。

emcpadm renamepseudo –s emcpowerx –t emcpowerz

中間還碰到裝置名稱已經被使用,無法重新命名問題,後來想辦法透過使用過渡名稱解決了;

還有剩下幾個裝置名稱多次嘗試始終無法修改,後來發現節點crs等服務自動起來了,可能是某些裝置已經被使用了,所以無法重新命名;於是我果斷停oracle相關服務,果然馬上能重新命名了。全部重新命名完成後儲存下配置powermt save,啟動節點相關服務,正常。

教訓:

維護工作儘量放到沒有業務時操作,如晚上

詳細的實施方案,審批流程規範

對所做的工作應該非常清楚詳細步驟及風險、所需的時間等,全面控制

向客戶申請維護視窗時,在估計所需的時間上加一些時間,以防出現意外情況

……

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/17172228/viewspace-1077980/,如需轉載,請註明出處,否則將追究法律責任。

相關文章