[排錯]安裝Oracle 10g RAC報Failure at final check of Oracle CRS stack 10錯誤

尛樣兒發表於2010-12-29

同事已經裝了好幾天的Oracle 10g RAC了,在第二個節點執行root.sh的時候最後老是報:
Failure at final check of Oracle CRS stack 10
錯誤,crs,css,evm程式都無法啟動。透過在網上,METALINK上查詢解決辦法都沒能解決問題。
最後我就來和他一起來處理這個問題了,經過2天的時間終於解決了這個問題,下面把解決過程做一個描述:

作業系統是RedHat Enterprise Linux 64bit,2臺資料庫伺服器是2臺HP很新的DL380 G7,BIOS是最新的版本 9/30/2010,儲存使用的是HP EVA 4400。

我來了之後從重新安裝作業系統開始,伺服器在安裝完成,重啟的時候會頻繁出現"紅屏"現象,但有時候有些盤又不會出現"紅屏"現象,經過10多次測試、安裝後,終於將2臺伺服器系統安裝成功了。我們以為有些盤有問題,但有時候同一張盤也會出現"紅屏"的情況,一直感覺這裡不太對勁,在想"紅屏"現象跟我們的報錯是不是有聯絡。帶著這種疑問我們再次安裝了Oracle RAC,結果依然報同樣的錯誤。太杯具了!!!我都快沒轍了!

這個時候我們越發感覺伺服器不對勁,安裝Oracle RAC步驟沒錯,但依然報錯,網上說的導致此問題的原因在我們系統都不存在,安裝作業系統出現的"紅屏"現象更加深了我這種擔憂,於是我與HP線上工程師交流(HP線上工程師這個支援方式真是不錯,贊啊!),由於BISO已經是最新版本了,HP工程師建議將韌體(Firmware)進行升級,透過他給我的地址和方法,我下載了最新版本的韌體升級檔案,並燒錄成光碟,下午的時候去機房對2臺伺服器的韌體進行了升級。

在升級過程中發現,升級的物件包括有Linux 64bit的一個bundle,跟客戶交流發現,他們大部分都安裝的是windows系統,即使有Linux,也都是32bit的系統。由此可以推斷客戶在之前的系統安裝並沒有出現"紅屏"的現象是因為安裝的作業系統要麼是windows的,要麼是linux 32bit的,所有沒有遇到問題。當在客戶最新採購的多臺DL380 G7的伺服器中安裝Linux 64bit系統的時候就可能出現這種”紅屏“的現象。

透過對伺服器韌體的升級,再次安裝系統,再也沒有出現"紅屏"的現象了,越發覺得一會兒的Oracle RAC安裝有戲了。晚上再次安裝Oracle RAC,果然一切正常了!
 
由此完成了叢集環境的搭建,根本原因在於伺服器是較新推出的伺服器,是個新機器,以前並沒有安裝過Linux 64bit的作業系統,bios是最新的,韌體在支援Linux 64bit的系統上存在問題,透過升級韌體的版本解決了此問題,最終使得安裝Oracle RAC報Failure at final check of Oracle CRS stack 10的錯誤得以解決。

HP啊,你可把我害苦啦,2天時間哦,我焦心啊,不過總算解決了,特寫篇文章和大家分享。


韌體升級檔案(需燒錄成光碟):


升級方法:


另外總結一下網上說的出現Failure at final check of Oracle CRS stack 10報錯可能的原因:
1.防火牆未關閉。
2.重新安裝Clusterware,檔案未清理乾淨(檢視METALINK文章:How to Clean Up After a Failed 10g or 11.1 Oracle Clusterware Installation [ID 239998.1])。
3.檢查共享儲存的許可權問題。
4.私有心跳連線存在問題。
5.檢查ssh配置不正確。
6.重新安裝Clusterware,/tmp/.oracle/,/var/tmp/.oracle/,/usr/tmp/.oracle/目錄未清空。

Hp最新的韌體版本下載:
HP Smart Update Firmware DVD

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23135684/viewspace-682839/,如需轉載,請註明出處,否則將追究法律責任。

相關文章