RAC二節點啟動異常

騎驢射大飛機發表於2022-02-15

#背景:

Linux6.8 雙節點RAC 11.2.0.4

該庫是使用DG從一個單節點的庫遷移過來的,之前是備庫,現在是單節點的庫已經不用了,這套庫改為主庫。

該庫有個歷史遺留問題,兩個節點使用的不是一個引數檔案,本次操作是修改引數檔案,並讓兩個節點同時使用該引數檔案。

重啟2節點時,2節點啟動異常。



#問題現象:

重啟2節點,在alter open的時候hang住,後來發現在mount的過程就已經存在問題,在trc檔案中可看到相關日誌。

節點2_alert:

Completed: ALTER DATABASE MOUNT /* db agent *//* {2:51433:61354} */

ALTER DATABASE OPEN /* db agent *//* {2:51433:61354} */

Picked broadcast on commit scheme to generate SCNs         <------------到這就hang住了,一晚上都沒動


節點2_trc:

kjzdattdlm: Can not attach to DLM (LMON up=[TRUE], DB mounted=[FALSE]).


節點1_alert:

Mon Feb 14 23:59:25 2022

Increasing number of real time LMS from 0 to 5

Mon Feb 14 23:59:39 2022

RMS0 (ospid: 94527) waits for event 'gc domain validation' for 0 secs.

Tue Feb 15 00:03:12 2022

minact-scn: master found reconf/inst-rec before recscn scan old-inc#:42 new-inc#:42


其它日誌檔案(包括系統messages)中沒發現具體提示資訊。



#解決:

重啟了節點1,節點2再啟動就恢復正常。



#分析:

從現象上看,應該是雙節點建的通訊程式出現異常,並且告警日誌中有很多process滿的提示;

節點1在重啟前,由於process已滿,就殺掉了所有遠端連線,但是該例項出現了一些異常,使用者無法登入(除了sys),表無法查詢(只有v$的檢視可訪問),業務都無法連線;

重啟後一切都恢復了,節點2也正常啟動了,懷疑是節點通訊程式之前就hang住了,本次kill遠端連線後,節點1的一些資料庫程式也hang住了。



#註釋:

本文主要記錄改問題現象,另外還有一個問題需要記錄一下:

startup nomount pfile='/home/oracle/cluster_pfile.out';

create spfile='+DATADG/ORADATA/spfileodsdb_st.ora' from pfile='/home/oracle/cluster_pfile.out';

該sql需要指定路徑,尤其pfile路徑;

pfile不指定路徑,spfile會變成空;

spfile不指定,會建立本地dbs下;

spfile只指定+DATADG,會建立一個新的spifle...檔案(spfileodsdb_st.ora是個連結檔案)。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69900971/viewspace-2855741/,如需轉載,請註明出處,否則將追究法律責任。

相關文章