【RAC】因硬體問題引起叢集重配可能造成所有節點不可用

xysoul_雲龍發表於2021-04-20


1、適用於


Oracle 19.10


2、描述

在一個3節點或更大的叢集中,如果一個節點由於硬體故障、強制重新啟動等而突然關閉,倖存的叢集節點將通過CSS重新配置來移除突然關閉的節點。但 有時CSS重新配置無法解決問題, 這會導致叢集重新配置掛起,從而導致資料庫例項收回和叢集中斷。


3、存在的問題


 該問題如果發生,需要滿足下列條件:

  • 大於2個節點的群集,CSS修復,節點重新啟動,並且叢集中至少存在一個節點位於有問題的視窗中


相反,問題不會在下列情況下存在:


少於3個節點或CSS執行無需重新啟動的恢復,或者所有幸存的節點不在有問題的視窗中,或者一個正在重新啟動的節點很快返回(少於30秒


許多錯誤都是由CSS通過無需重啟的恢復來處理的,在這種情況下,它將從潛在的掛起恢復


對於有問題的視窗,請參見下面緩解步驟中的說明


注意:此問題特定於19.10 Grid Home


4、症狀


如果某個節點由於硬體故障、強制重新啟動等原因突然關閉,倖存的群集節點將通過重新配置來移除突然關閉的節點。作為重構的一部分,叢集通過CSS主節點選擇協議來選擇重構主節點。為每個重配置動態選擇一個重配置主節點。所有節點都試圖成為一個可重構主節點,並最終將其分解為一個節點作為主節點。由於與包裝網路和磁碟心跳的時間戳(以毫秒錶示)相關的問題,主選擇協議無法解決。這會導致叢集重新配置掛起,從而導致資料庫例項收回和叢集中斷


5、方法


A 32-bit millisecond system clock wraps every 49 days. The problem starts to happen when a 
node is up more than 24.5 days, which is the mid-point of a 49-day window. On the 49th day,
 it wraps and starts from zero. Until it hits the mid-point of the next 49th day window, 
 the problem does not happen. Problematic window for the node, as seen by OS ‘uptime’ 
 command (number of Days): 24.5 – 49 days, 73.5 - 98 days, 122.5 – 147 days, etc. 
 Non-Problematic window for the node, as seen by OS ‘uptime’ command (number of Days):
  0 – 24.5 days, 50 – 73.5 days, 98 – 122.5 days, etc.


以下是一些減輕此問題風險的選項。


積極主動的:


監視群集中所有節點的正常執行時間。

對於問題視窗中的每個節點,


-按照標準的資料庫計劃維護過程關閉節點上的所有資料庫例項。

-關閉CRS服務('crsctl stop crs -f')

-主動重新啟動節點。

這將清除有問題視窗中的節點,並將其放入無問題視窗中。


問題處理類:


如果叢集由於所描述的問題而處於重新配置掛起狀態,那麼至少有一個節點位於叢集中有問題的視窗中。在有問題的視窗中可能有多個節點 在這種情況下,可以執行以下步驟


從重新配置掛起中清除群集。

在有問題的視窗中的一個節點上,

-關閉CRS服務('crsctl stop crs -f')

-如果'crsctl stop crs –f'未完成/掛起,請使用'kill-9'終止節點上的ocssd程式,


這將觸發節點重新啟動。


通過上述步驟,應解決重新配置掛起問題。

執行上述步驟的主動預防部分,以避免將來出現問題。


6、補丁

本例中出現的問題可以使用錯誤修復"30227028"解決。它通過跳過為自己重新啟動的節點執行“有效性”檢查來修復上述問題。


建議應用包含多個關鍵修復程式的合併補丁"32726497"


翻譯:

Potential Complete Cluster wide outage caused by cluster reconfiguration hang (Doc ID 2767299.1)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29487349/viewspace-2768980/,如需轉載,請註明出處,否則將追究法律責任。

相關文章