oracle rac對網路要求是非常高的,一些看似很小的網路故障往往導致整個叢集的無法啟動. 很多故障的報錯不能簡單透過metalink的處理方法，有時候可能適得其反，應該先檢視系統最近是否出現變動，測試共享儲存，無密碼登陸，許可權，hostname設定等。[@more@]

早上剛剛處理完因為儲存故障導致不斷重啟的rac,把應用切換到異地的容災叢集,下午居然資料管理中心的8節點叢集又掛了.不過不是不斷重啟,而是壓根起不來.....

沒辦法幫忙把,早讓他們找DBA的....現在也只能幫忙到底了.上去一檢查,之前故障發生後,已經有人重啟了所有機器,看了重啟前的db和os日誌,除了類似：

th_select_handler: Failed to retrieve procctx from ht. constr = [-1733291968] retval lht [-27] Signal CV.

沒有什麼特別的報錯.要問問重啟前的情況，人都不在。。。。

好累啊....8臺的日誌阿....

最後在一臺的crs.log上發現不斷重複這段錯誤：

2009-01-06 13:25:26.017: [ CSSCLNT][2541047328]clsssInitNative: connect failed, rc 9
2009-01-06 13:25:26.017: [ CRSRTI][2541047328]0CSS is not ready. Received status 3 from CSS. Waiting for good status ..
2009-01-06 13:25:27.423: [ COMMCRS][1084229984]clsc_connect: (0xb4c840) no listener at (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_dc-cs-01
_crs))

上metalink看看沒啥特別相關的問題。

基本定位問題到：

1.ocr,voting disk的訪問也就是共享儲存

2.網路問題

看了下儲存狀態和許可權，各臺機器都沒什麼問題

嘗試重啟了下其他7臺機器，發現重啟後都正常了，唯獨這臺不一樣。

檢查網路設定，果然心跳網路的訪問被改動了。。。改回來，重啟，一切ok了，啟動後發現有問題的那臺只能註冊自己的例項而無法註冊別的節點的例項，估計又是防火牆策略的問題，果然調整好重啟了監聽就恢復正常了。等他們人來了一問，原來新加了別的機器，結果DHCP自動設定到這個網段造成網路衝突，至於那臺改設定的機器麼就不知道誰動咯。。。所以rac的心跳網路和共享儲存一定要與別的環境隔離開，如同你可以在一臺機器上起2個名字一樣的例項但是生產環境沒人會這樣做一樣，這也是規範。現在只能告誡他們別亂動了。。。。還有快點幫他們找個好的DW DBA。。。

oracle 10g rac 網路故障處理

相關文章