懷疑私網網路卡多播問題導致crs無法正常啟動
一個 rac 只能啟動一個節點 crs 的問題,目前懷疑是多播問題造成。
前幾日在歷史庫測試 PSU 升級,在完成一個節點軟體升級後對第二節點 GI 進行升級時, CRS 可以正常成功關閉,之後報出了 Error : The opatch Applicable check failed ,於是嘗試重新啟動 CRS ,但很明顯 CRS 無法正常啟動。
通過日誌檢視,發現 CRS-5818:Aborted command 'start' for resource 'ora.cssd'. 在啟動 CSSD 資源無法成功,並且從當前的程式情況可以確認 CSS 存在問題。
於是從當時的 CSSD 日誌可以看出, CSSD 在啟動時,在準備與遠端節點的過程中建立本地通訊介面時失敗了,具體的日誌分析如下:
-
從 gpnp profile 中獲取叢集的私網資訊。
2. 以下開始準備和遠端節點通訊,並 created local interface for node 'nghis-db2', 但在進行繫結 endpoint (localAddr 'mcast://224.0.0.251:42424/192.169.1.40') 失敗了,該本地地址為一個 mcast 地址。
當時看到 No buffer space available (74) ,認為是懷疑是 udp_sendspace 和 udp_recvspace 不夠大,查詢發現分別為 65536 和 655360 ,這實際應用是足夠了。不出意料,將該兩個引數調大之後重啟 CRS 依然無法解決,而在 MOS 上關於該錯誤的大部分都指向了 BUG,11gR2 Grid Infrastructure Node May not Join the Cluster After Evicted With Error sgipcnUdpSend "No buffer space available (74)" ( 文件 ID 1352887.1) 。
但當前的現象與該文件描述不符合,
當前的操作是 sgipcnMctBind
文件中的是 sgipcnUdpSend
3. 更新介面狀態,依然無法建立本地介面,即無法與遠端節點通訊,於是執行了 disable interface 並 clean disabled insterface
4. 重新開始 add interface ,但仍然失敗。
5. 之後連續每隔 1 分鐘報出了 has a disk HB, but no network HB ,說明此時私網上應該出現了聯通性的故障。
於是我們測試了私網地址的聯通是否有問題,使用 traceroute 檢查,然而並沒有聯通性問題。
於是就很不理解了,在心跳網路卡既然沒有問題,為何無法檢測到網路心跳。此時問題應該還是出現在以上出現 No buffer space available (74) 的 gipcmodNetworkProcessBind 的過程,對比了節點 1 正常啟動 gipchaWorkerCreateInterface 的過程,一共新增了 4 個地址:
1. udp://192.169.1.39:13034 ------ 私網地址
2. mcast://224.0.0.251:42424/192.169.1.39 ----- 多播地址
3. mcast://230.0.1.0:42424/192.169.1.39 ----- 多播地址
4. udp://192.169.1.127:42424 ------- 廣播地址
很明顯節點 2 在以上的過程中應該是在新增第二個地址,多播地址 mcast://224.0.0.251:42424/192.169.1.40 時出現了問題。
通過多播檢測工具檢測私網網路卡的多播地址聯通性,發現都是檢測失敗,而測試節點 1 的是成功的,於是懷疑問題應該是出現在節點 2 的多播地址上。
有懷疑是 HAIP 問題,於是嘗試將 HAIP disable 掉,並將私網網路卡上的 169 ip 依然無法解決。
禁止 haip 命令:
oracle/app/11.2.0.4/grid/bin/crsctl modify res ora.cluster_interconnect.haip -attr "ENABLED=0" -init
最後同事提議使出殺手鐗 --- 重啟主機,由於這套庫是歷史庫,沒有實時的業務,確定無影響後就進行了重啟主機,重啟主機後 CRS 能正常啟動, CSS 也正常通過過了 gipchaWorkerCreateInterfac 步驟。
再次檢測私網網路卡的多播地址聯通性,這次是成功了。
至此,問題解決了,但因為是通過重啟主機解決,始終感覺這並不是最終的原因。多播檢測不通,是否意味著網路確實是存在問題?這點也不敢斷論。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29863023/viewspace-2216733/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- oracle兩節點RAC,由於gipc導致某節點crs無法啟動問題分析Oracle
- 克隆虛擬機器導致Linux無法啟動網路卡的分析與解決虛擬機Linux
- qt6 QtOpcUa無法正常啟動問題QT
- 前後端頁面分離導致session無法正常獲取的問題後端Session
- MySQL連線數過多導致服務無法正常執行MySql
- 應用使用JNDI,資料庫無法連線,導致的程序無法啟動問題處理資料庫
- CRS-5014 CLSN00009 CRS-5017 RAC環境監聽異常,無法正常啟動和關閉
- php無法正常修改網站,如何排查和解決PHP網站修改問題PHP網站
- MAC電腦出現問題,無法正常啟動怎麼辦?Mac
- 網路卡-熱點搜尋不到或者無法連線問題
- 【linux】【docker】Docker預設網段配置導致無法訪問LinuxDocker
- RTThread 自動網路卡使用問題thread
- 多路徑配置問題和ACFS啟用原因導致rac二節點不能正常啟動
- 重置資料庫密碼後導致網站無法訪問資料庫密碼網站
- 【epoll問題】EPOLLRDHUP使用導致無法接受資料
- vmware虛擬網路卡驅動無法安裝
- Linux主機USB RNDIS網路卡驅動實現不完整導致的一例問題Linux
- 解決虛擬網路卡無法連線到 Internet 問題(之一)
- 導致物聯網路卡停機的原因
- 【Python】jupyter notebook啟動後網頁無法訪問Python網頁
- Webphser Applcation Server Dmgr無法正常啟動WebAPPServer
- 怎麼解決SOLIDWORKS文件無法正常開啟的問題!Solid
- 解決ASM無法啟動問題ASM
- vim 編輯報錯導致無法正常退出和編輯
- 無法訪問GitHub網站及無法正常操作倉庫的處理方法Github網站
- 網站主機CPU或記憶體使用率過高導致網站無法訪問網站記憶體
- win10 ituns無法正常啟動怎麼辦_win10 ituns無法正常啟動解決方法Win10
- 網路卡驅動程式不正常上不了網怎麼修復(win7、win10) 網路卡驅動不正常不能連線網路Win7Win10
- Springboot整合Swagger2無法正常啟動Spring BootSwagger
- LightDB/Postgresql 記錄客戶端啟動版本問題導致啟動失敗問題SQL客戶端
- FLASH PLAYER 谷歌瀏覽器瀏覽網站無法正常顯示的問題谷歌瀏覽器網站
- eclipse能正常啟動tomcat,但是網頁訪問不了EclipseTomcat網頁
- centos7網路卡啟動不了的解決辦法CentOS
- Oracle Haip無法啟動問題學習OracleAI
- Electron安裝過程深入解析(讀完此文解決Electron安裝失敗導致的無法啟動,無法打包的問題)
- 啟停無線網路卡bat指令碼BAT指令碼
- 神奇的DEBUG:因為異常導致MongoDB容器無法啟動MongoDB
- 因為跨域問題導致的無法讀取 response header跨域Header