1、適用於

Oracle 19.10

2、描述

在一個3節點或更大的叢集中，如果一個節點由於硬體故障、強制重新啟動等而突然關閉，倖存的叢集節點將通過CSS重新配置來移除突然關閉的節點。但有時CSS重新配置無法解決問題，這會導致叢集重新配置掛起，從而導致資料庫例項收回和叢集中斷。

3、存在的問題

該問題如果發生，需要滿足下列條件：

大於2個節點的群集，CSS修復，節點重新啟動，並且叢集中至少存在一個節點位於有問題的視窗中

相反，問題不會在下列情況下存在：

少於3個節點或CSS執行無需重新啟動的恢復，或者所有幸存的節點不在有問題的視窗中，或者一個正在重新啟動的節點很快返回（少於30秒

許多錯誤都是由CSS通過無需重啟的恢復來處理的，在這種情況下，它將從潛在的掛起恢復

對於有問題的視窗，請參見下面緩解步驟中的說明

注意：此問題特定於19.10 Grid Home

4、症狀

如果某個節點由於硬體故障、強制重新啟動等原因突然關閉，倖存的群集節點將通過重新配置來移除突然關閉的節點。作為重構的一部分，叢集通過CSS主節點選擇協議來選擇重構主節點。為每個重配置動態選擇一個重配置主節點。所有節點都試圖成為一個可重構主節點，並最終將其分解為一個節點作為主節點。由於與包裝網路和磁碟心跳的時間戳（以毫秒錶示）相關的問題，主選擇協議無法解決。這會導致叢集重新配置掛起，從而導致資料庫例項收回和叢集中斷

5、方法

A 32-bit millisecond system clock wraps every 49 days. The problem starts to happen when a 
node is up more than 24.5 days, which is the mid-point of a 49-day window. On the 49th day,
 it wraps and starts from zero. Until it hits the mid-point of the next 49th day window, 
 the problem does not happen. Problematic window for the node, as seen by OS ‘uptime’ 
 command (number of Days): 24.5 – 49 days, 73.5 - 98 days, 122.5 – 147 days, etc. 
 Non-Problematic window for the node, as seen by OS ‘uptime’ command (number of Days):
  0 – 24.5 days, 50 – 73.5 days, 98 – 122.5 days, etc.

以下是一些減輕此問題風險的選項。

積極主動的：

監視群集中所有節點的正常執行時間。

對於問題視窗中的每個節點，

-按照標準的資料庫計劃維護過程關閉節點上的所有資料庫例項。

-關閉CRS服務（'crsctl stop crs -f'）

-主動重新啟動節點。

這將清除有問題視窗中的節點，並將其放入無問題視窗中。

問題處理類：

如果叢集由於所描述的問題而處於重新配置掛起狀態，那麼至少有一個節點位於叢集中有問題的視窗中。在有問題的視窗中可能有多個節點。在這種情況下，可以執行以下步驟

從重新配置掛起中清除群集。

在有問題的視窗中的一個節點上，

-關閉CRS服務（'crsctl stop crs -f'）

-如果'crsctl stop crs –f'未完成/掛起，請使用'kill-9'終止節點上的ocssd程式，

這將觸發節點重新啟動。

通過上述步驟，應解決重新配置掛起問題。

執行上述步驟的主動預防部分，以避免將來出現問題。

6、補丁

本例中出現的問題可以使用錯誤修復"30227028"解決。它通過跳過為自己重新啟動的節點執行“有效性”檢查來修復上述問題。

建議應用包含多個關鍵修復程式的合併補丁"32726497"

翻譯：

Potential Complete Cluster wide outage caused by cluster reconfiguration hang (Doc ID 2767299.1)

【RAC】因硬體問題引起叢集重配可能造成所有節點不可用

相關文章