【RAC】因硬體問題引起叢集重配可能造成所有節點不可用
1、適用於
Oracle 19.10
2、描述
在一個3節點或更大的叢集中,如果一個節點由於硬體故障、強制重新啟動等而突然關閉,倖存的叢集節點將通過CSS重新配置來移除突然關閉的節點。但 有時CSS重新配置無法解決問題, 這會導致叢集重新配置掛起,從而導致資料庫例項收回和叢集中斷。
3、存在的問題
該問題如果發生,需要滿足下列條件:
-
大於2個節點的群集,CSS修復,節點重新啟動,並且叢集中至少存在一個節點位於有問題的視窗中
相反,問題不會在下列情況下存在:
少於3個節點或CSS執行無需重新啟動的恢復,或者所有幸存的節點不在有問題的視窗中,或者一個正在重新啟動的節點很快返回(少於30秒
許多錯誤都是由CSS通過無需重啟的恢復來處理的,在這種情況下,它將從潛在的掛起恢復
對於有問題的視窗,請參見下面緩解步驟中的說明
注意:此問題特定於19.10 Grid Home
4、症狀
如果某個節點由於硬體故障、強制重新啟動等原因突然關閉,倖存的群集節點將通過重新配置來移除突然關閉的節點。作為重構的一部分,叢集通過CSS主節點選擇協議來選擇重構主節點。為每個重配置動態選擇一個重配置主節點。所有節點都試圖成為一個可重構主節點,並最終將其分解為一個節點作為主節點。由於與包裝網路和磁碟心跳的時間戳(以毫秒錶示)相關的問題,主選擇協議無法解決。這會導致叢集重新配置掛起,從而導致資料庫例項收回和叢集中斷
5、方法
A 32-bit millisecond system clock wraps every 49 days. The problem starts to happen when a node is up more than 24.5 days, which is the mid-point of a 49-day window. On the 49th day, it wraps and starts from zero. Until it hits the mid-point of the next 49th day window, the problem does not happen. Problematic window for the node, as seen by OS ‘uptime’ command (number of Days): 24.5 – 49 days, 73.5 - 98 days, 122.5 – 147 days, etc. Non-Problematic window for the node, as seen by OS ‘uptime’ command (number of Days): 0 – 24.5 days, 50 – 73.5 days, 98 – 122.5 days, etc.
以下是一些減輕此問題風險的選項。
積極主動的:
監視群集中所有節點的正常執行時間。
對於問題視窗中的每個節點,
-按照標準的資料庫計劃維護過程關閉節點上的所有資料庫例項。
-關閉CRS服務('crsctl stop crs -f')
-主動重新啟動節點。
這將清除有問題視窗中的節點,並將其放入無問題視窗中。
問題處理類:
如果叢集由於所描述的問題而處於重新配置掛起狀態,那麼至少有一個節點位於叢集中有問題的視窗中。在有問題的視窗中可能有多個節點 。 在這種情況下,可以執行以下步驟
從重新配置掛起中清除群集。
在有問題的視窗中的一個節點上,
-關閉CRS服務('crsctl stop crs -f')
-如果'crsctl stop crs –f'未完成/掛起,請使用'kill-9'終止節點上的ocssd程式,
這將觸發節點重新啟動。
通過上述步驟,應解決重新配置掛起問題。
執行上述步驟的主動預防部分,以避免將來出現問題。
6、補丁
本例中出現的問題可以使用錯誤修復"30227028"解決。它通過跳過為自己重新啟動的節點執行“有效性”檢查來修復上述問題。
建議應用包含多個關鍵修復程式的合併補丁"32726497"
翻譯:
Potential Complete Cluster wide outage caused by cluster reconfiguration hang (Doc ID 2767299.1)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29487349/viewspace-2768980/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 私有IP丟失造成Oracle 12C RAC叢集節點不能啟動Oracle
- zookeeper叢集奇偶數節點問題
- 檢視Redis叢集所有節點記憶體工具Redis記憶體
- DRM特性引起的RAC節點當機
- 【故障公告】Kubernetes 叢集節點當機造成部落格站點故障
- rac新增節點容易遇到的問題
- Oracle叢集軟體管理-新增和刪除叢集節點Oracle
- 安裝Oracle 11G RAC 遇到的2個問題——Failed to run "oifcfg" 和 找不到叢集節點OracleAI
- consul 多節點/單節點叢集搭建
- 11g rac新增節點容易遇到的問題
- rac新增節點容易遇到的問題(11g)
- HAC叢集新增新節點
- 4.2 叢集節點初步搭建
- Solaris叢集節點重啟
- 【Azure微服務 Service Fabric 】因證書過期導致Service Fabric叢集掛掉(升級無法完成,節點不可用)微服務
- 排查 k8s 叢集 master 節點無法正常工作的問題K8SAST
- MongoDB叢集搭建(包括隱藏節點,仲裁節點)MongoDB
- linux搭建kafka叢集,多master節點叢集說明LinuxKafkaAST
- ray叢集work節點無法在不同wifi遠端連線的問題WiFi
- ORACLE RAC TO RAC DG搭建過程中可能遇到的問題Oracle
- HAC叢集更改IP(單節點更改、全部節點更改)
- k8s克隆節點引起的系統崩潰問題K8S
- 安全叢集訪問非安全叢集問題記錄
- mysql 字符集造成的效能問題MySql
- Jedis操作單節點redis,叢集及redisTemplate操作redis叢集(一)Redis
- Redis服務之叢集節點管理Redis
- Redis Manager 叢集管理與節點管理Redis
- oracle兩節點RAC,由於gipc導致某節點crs無法啟動問題分析Oracle
- cephadm訪問ceph叢集的方式及管理員節點配置案例
- rac叢集日常維護命令
- Oracle RAC新增節點Oracle
- 升級kubeadm 叢集(只有master單節點)AST
- hadoop叢集搭建——單節點(偽分散式)Hadoop分散式
- kubernets叢集節點NotReady故障 分析報告
- 400+ 節點的 Elasticsearch 叢集運維Elasticsearch運維
- mongodb叢集節點故障的切換方法MongoDB
- 400+節點的 Elasticsearch 叢集運維Elasticsearch運維
- Druid.io系列3:Druid叢集節點UI