ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

清風艾艾 發表於 2021-12-01
Oracle

        最近,一套oracle 11.2.0.4 rac叢集的一個sun solaris節點主機更換主機板電池,電池更換引起主機系統時間倒退

到2000年1月1日,與正常節點時間相差21年,最終導致異常節點GI叢集服務crsd無法啟動,糾正系統時間後,異常節

點GI叢集服務正常啟動。

        問題現象:

        更換主機主機板電池之前,由於主機1節點有帶庫emc agent代理程式存在,導致叢集服務無法正常停止;此時,系

統時間還是正常的。

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        由於MCagent服務無法正常停止,操作同事對叢集程式進行了kill -9強制關閉叢集,這也是問題排查導向出現偏差,

現場同事一直以為是對叢集程式kill -9導致叢集crsd服務無法啟動。

        更換主機主機板電池的節點,重啟之後GI叢集服務無法啟動;主機板電池更換後,叢集GI服務crsd無法啟動。

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        問題分析:

        檢視ohasd日誌,發現叢集正在啟動crsd服務,一直重新整理crsd相關的日誌並無異常提示,但是日誌輸出時間明顯不對,

系統時間變成了2000年01月01日,正常節點的時間是2021年11月27日,懷疑是系統時間的問題導致crsd無法啟動。

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        檢視系統時間,發現系統時間與ohasd日誌列印時間一致是 2000年01月01日。

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        問題處理:

        調整問題節點的系統時間:

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        重啟問題節點的crs叢集服務,很快crsd出現了starting標誌,之前很長時間沒有任何提示:

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        稍等片刻,異常節點的crsd正常啟動,ASM和DB例項正常啟動

ORACLE 11.2.0.4 for solaris更換硬體後主機時間改變導致一節點叢集服務無法啟動

        總結:

        系統主機板電池更換,主機時間一定會發生變化,對於oracle叢集來說,一旦叢集節點間時間相差過大,crs將無法

正常啟動,因此更好主機板和主機板電池後要注意調整系統時間;建議oracle 叢集設定ntp時鐘同步避免時間問題導致oracle

叢集無法啟動。


        


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29357786/viewspace-2845178/,如需轉載,請註明出處,否則將追究法律責任。