Oracle9204 RAC 節點2當機後5小時重新啟動找不到節點1上例項

tolywang發表於2008-12-31
Oracle9.2.0.4  RAC    ocfs  
Linux AS3.0
兩節點

現狀:  節點1 工作正常,節點2 掛起



    凌晨由於硬體問題導致節點2掛起 ,需要重新更換硬體,系統關閉(節點1工作正常),由於種種原因,硬體
更換進度緩慢, 早上8點多才更換完成,重新開啟節點2 後,開啟oracm , gsd, 例項2,監聽(這段時間節點1
一直執行中),隨後節點1的監聽可以監測到節點2的例項 , 但是節點2 上 lsnctl status 只能看到節點2 自己
,不能監測到節點1的例項 ,是否時間過長,節點1 工作正常,沒有重新啟動,所以節點2 不能監測到節點
1的例項 ?  

      一般情況下節點1,2 Server兩臺重新啟動後, 一般都是先開啟節點1上的oracm, gsd, 例項,監聽, 幾分鐘
後開啟節點2的, 都能互相偵測到 。

      這個問題發生後的開啟順序和正常開啟沒有區別,只是節點2 當機時間過長 (被節點1剔出RAC系統) 。  


cmcfg.ora 中的關於oracm 的一些引數定義及解釋上不是太清楚。


MissCount         defines the number of check-in intervals that can be missed before a Cluster Manager and its related node are declared down by the cluster.   

PollInterval     defines the check-in time among Cluster Managers on different nodes. Each Cluster Manager is expected to send at least one status packet to all other nodes for each poll interval.


HeartBeat=15000           ---------  15000 毫秒 ,具體表示...... ?  
PollInterval=1000           --------   1000毫秒, 預設值,表示傳輸一個狀態包到其他節點的時間間隔,這裡是1秒 。
MissCount=210              --------    預設值為3, 定義在cluster管理器及他相關的節點被cluster判斷為down 之前,可以忽略的check-in intervals 數量,應該是和 PollInterval 一起用的 。 210秒 ?

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/35489/viewspace-524775/,如需轉載,請註明出處,否則將追究法律責任。

相關文章