Oracle RAC啟動因CTSS導致的異常

abstractcyj發表於2020-05-25

一套11.2.0.4的RAC,節點時間採用ntpdate使用cron job的方式進行同步。

 節點1因硬體故障當機之後,叢集服務久久不能啟動。連上主機,採用crsctl stop has -f,crsctl start has的方式進行重啟,

同時採用crsctl stat res -t -init的方式檢視叢集基礎服務啟動的狀態。發現CTSS啟動時有報錯,最終呈現offline的狀態。

採用如下命令刪除了oracle叢集相關的一些檔案,之後,重啟HAS,問題依舊

rm -rf /usr/tmp/.oracle/* /var/tmp/.oracle/* /tmp/.oracle/*

檢視octssd.log, 發現存在如下資訊:

2020-05-26 10:25:06.738: [    CTSS][149128960]ctssslave_msg_handler4_1: Waiting for slave_sync_with_master to finish sync process. sync_state[3].

2020-05-26 10:25:06.738: [    CTSS][142825216]ctssslave_swm2_3: Received time sync message from master.

2020-05-26 10:25:06.738: [    CTSS][142825216]ctssslave_swm: The magnitude [86413682462 usec] of the offset [86413682462 usec] is larger than [86400000000 usec] sec which is the CTSS limit.

2020-05-26 10:25:06.738: [    CTSS][142825216]ctsselect_monitor_steysync_mode: Failed in clsctssslave_sync_with_master [12]: Time offset is too much to be corrected

2020-05-26 10:25:06.738: [    CTSS][149128960]ctssslave_msg_handler4_3: slave_sync_with_master finished sync process. Exiting clsctssslave_msg_handler

2020-05-26 10:25:07.485: [    CTSS][166291200]ctss_checkcb: clsdm requested check alive. checkcb_data{mode[0xd0], offset[86413682 ms]}, length=[8].

2020-05-26 10:25:07.485: [    CTSS][142825216]ctsselect_monitor_steysync_mode: CTSS daemon exiting [12].

2020-05-26 10:25:07.485: [    CTSS][142825216]CTSS daemon aborting


於是採用ntpdate的方式,強制同步了兩個節點的時間/usr/sbin/ntpdate *.*.*.* && /sbin/hwclock

重啟HAS, 叢集順利啟動


參考:

https://newbiedba.wordpress.com/2016/03/24/oracle-rac-database-crs-4535crs-4536crs-4534-error/


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8520577/viewspace-2694104/,如需轉載,請註明出處,否則將追究法律責任。

相關文章