RAC資料庫只能啟動一個節點的故障
這個月實在是太忙了,幾乎每天都是7點多起床,然後去客戶現場,然後加班,回來就覺得累的不行啦!
所以一直沒有更新,算是給自己找個藉口吧~~
其實需要總結的東西還是挺多的,直到放假的最後一天晚上,我總算有心想去總結下了~!
先要總結的就是月初解決過的一個故障(其實算是未遂),現場描述如下:
雙節點RAC資料庫,只能啟動一個節點,無論哪個節點先啟動,另外一個節點就無法正常啟動了!系統平臺是AIX5L,使用hacmp 5管理共享磁碟,無法啟動的表現就是可以mount,alter database open就hang在那不動,沒有任何報錯資訊,只有後臺程式QMNC程式無法啟動,重新啟動的資訊,還有MMNL absent for 1474 secs; Foregrounds taking over的資訊給出,查了些關於這兩個程式的說明,都是因為資料庫無法正常啟動,所以有的正常反應!不能作為解決問題的根源和依據。
出現該問題前,客戶進行了一下資料轉換的操作,中間等待長時間無反應,所以最後選擇重啟資料庫,然後hang住很長時間,然後shutdown abort關閉資料庫,然後再啟動就出現上述問題!
到達現場,開始嘗試啟動無法啟動的資料庫,發現就是hang在alter database open的過程,如果不做任何操作,就一直hang在這個過程不動,觀察系統負載,沒有任何變動,如果這時候關閉第一個啟動的節點,第二個啟動的節點就能完成正常啟動。這個過程資料庫中在做什麼呢?
判斷來判斷去,在metalink中也搜尋半天,發現有個兩個bug可能導致這個問題,但是打相應patch後依然如故!兩個patch分別為p5106909和p5190596,感興趣可以去參考下!
分析從故障開始的日誌,發現在alert日誌中有Waiting for clusterware split-brain resolution,中文就是腦裂,懷疑網路存在問題,但是使用ping命令ping心跳地址,正常!!!
系統中errpt有:
4507DE58 0507180209 I H ent2 ETHERNET NETWORK RECOVERY MODE
DED8E752 0507180209 T H ent2 ETHERNET DOWN
4507DE58 0507180209 I H ent5 ETHERNET NETWORK RECOVERY MODE
DED8E752 0507180209 T H ent5 ETHERNET DOWN
系統工程師說是網路卡模式問題,應該沒什麼影響!(我就相信了據說是IBM的工程師,結果後來……唉!)
DED8E752 0507180209 T H ent2 ETHERNET DOWN
4507DE58 0507180209 I H ent5 ETHERNET NETWORK RECOVERY MODE
DED8E752 0507180209 T H ent5 ETHERNET DOWN
系統工程師說是網路卡模式問題,應該沒什麼影響!(我就相信了據說是IBM的工程師,結果後來……唉!)
所以下面我就又開始折騰這個資料庫啊,各種方法嘗試,折騰一天,沒有什麼眉目,回去休息,明天繼續吧!
結果第二天一來,客戶就告訴我,應用的工程師,把兩個資料庫節點都給起來了,方法就是:啟動第二個節點的時候,在第一個節點執行命令:alter system flush buffer_cache;就是清空第一個啟動節點的buffer cache,然後第二個節點就能正常啟動了!不知道他是怎麼想到的,但是這就說明,其實第二個節點啟動時候hang在了同步buffer cache的過程了,清除了第一個節點buffer cache就好了!具體猜想應該是資料字典!
雖然是都啟動了,但是這種方式絕對不是解決辦法,因為如果再有需要同步cache的操作,資料庫還是會出現問題,結果執行了大約1個多小時,資料庫果然出現問題:又出現腦裂,日誌如下:
Thu May 7 09:19:11 2009
IPC Send timeout detected. Receiver ospid 160682
Thu May 7 09:19:11 2009
Errors in file /oracle/app/admin/orcl/bdump/orcl2_lms0_160682.trc:
Thu May 7 09:19:12 2009
Trace dumping is performing id=[cdmp_20090507091857]
Thu May 7 09:20:52 2009
Waiting for clusterware split-brain resolution
Thu May 7 09:25:55 2009
Errors in file /oracle/app/admin/orcl/bdump/orcl2_lmon_114856.trc:
ORA-00600: Message 600 not found; No message file for product=RDBMS, facility=ORA; arguments: [kjxgrdecidemem1]
Thu May 7 09:25:56 2009
Trace dumping is performing id=[cdmp_20090507092556]
Thu May 7 09:25:56 2009
Errors in file /oracle/app/admin/orcl/bdump/orcl2_lmon_114856.trc:
ORA-00600: Message 600 not found; No message file for product=RDBMS, facility=ORA; arguments: [kjxgrdecidemem1]
Thu May 7 09:25:56 2009
LMON: terminating instance due to error 481
Instance terminated by LMON, pid = 114856
IPC Send timeout detected. Receiver ospid 160682
Thu May 7 09:19:11 2009
Errors in file /oracle/app/admin/orcl/bdump/orcl2_lms0_160682.trc:
Thu May 7 09:19:12 2009
Trace dumping is performing id=[cdmp_20090507091857]
Thu May 7 09:20:52 2009
Waiting for clusterware split-brain resolution
Thu May 7 09:25:55 2009
Errors in file /oracle/app/admin/orcl/bdump/orcl2_lmon_114856.trc:
ORA-00600: Message 600 not found; No message file for product=RDBMS, facility=ORA; arguments: [kjxgrdecidemem1]
Thu May 7 09:25:56 2009
Trace dumping is performing id=[cdmp_20090507092556]
Thu May 7 09:25:56 2009
Errors in file /oracle/app/admin/orcl/bdump/orcl2_lmon_114856.trc:
ORA-00600: Message 600 not found; No message file for product=RDBMS, facility=ORA; arguments: [kjxgrdecidemem1]
Thu May 7 09:25:56 2009
LMON: terminating instance due to error 481
Instance terminated by LMON, pid = 114856
明天還要去客戶現場,又是9點到,還在南城,睡覺~
未完待續~~~~~~~~~~
還是繼續寫完吧~~~~~~~
後來經過檢查,發現在netstat -s檢視時發現有丟包現象,但是還是沒有引起我的足夠注意,再後來我實在是找不到原因,只好建議客戶從網路和系統方面都排查!正好這時候客戶請來另一家的工程師解決,我覺得人家在兩個方面做得比我好:
1、先是去看了現場硬體配置環境(我就沒去看過)
2、從可能的原因一一排查(我就一直專注於找到比較可信的原因)
可能是在一家公司呆久了,也可能是經常一個人解決問題,行成了自己的固定思維模式,總之,最後是我沒有找到比較可行的解決方法,而另一家公司的工程師建議客戶排除網路(心跳線等原因)、系統等方面,再想起他方法,結果心跳線一換就ok啦~~~~~~~
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/122290/viewspace-604489/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Oracle RAC命中ORA-7445只能開啟一個節點故障案例分析Oracle
- 3節點RAC資料庫夯故障分析資料庫
- Oracle 19c rac安裝,只能啟動一個節點的ASMOracleASM
- rac二節點例項redo故障無法啟動修復
- RAC二節點啟動異常
- 關於Oracle 11G RAC雙節點之間存在防火牆導致只能一個節點執行Oracle防火牆
- 聊聊分散式資料庫中單節點故障的影響分散式資料庫
- Oracle RAC啟動失敗(DNS故障)OracleDNS
- RAC節點啟動失敗--ASM無法連線ASM
- RAC開啟資料庫歸檔資料庫
- rac新增節點前之清除節點資訊
- 11.2.0.4 RAC生產環境刪除故障節點與增加新服務節點
- 【RAC啟動故障】ORA-21561: OID generation failedAI
- Oracle RAC常見啟動失敗故障分析Oracle
- ORACLE 12C RAC資料庫的啟停Oracle資料庫
- 如何啟動一個 server 模式的 h2 資料庫Server模式資料庫
- oracle兩節點RAC,由於gipc導致某節點crs無法啟動問題分析Oracle
- RAC各個程式啟動的流程
- 【RAC】Oracle19.13之後的grid,節點重啟後不會自動驅動Oracle
- 記一次oracle 19c RAC叢集重啟單節點DB啟動異常(二)Oracle
- Oracle RAC新增節點Oracle
- mongo資料庫單節點搭建Go資料庫
- 阿里雲香港節點全面故障給我們的啟示阿里
- oracle 11g rac新增節點前之清除節點資訊Oracle
- 資料庫——查詢樹形結構某節點的所有子節點、所有父節點資料庫
- MySQL資料庫故障分析-鎖等待(一)MySql資料庫
- 私有IP丟失造成Oracle 12C RAC叢集節點不能啟動Oracle
- oracle 12c RAC安裝,例項不能多節點同時啟動Oracle
- oracle rac資料庫的安裝Oracle資料庫
- 2節點RAC安裝
- 多路徑配置問題和ACFS啟用原因導致rac二節點不能正常啟動
- 3.1 啟動資料庫資料庫
- 啟動MySql資料庫MySql資料庫
- 11.2.0.4 RAC CSSD服務無法啟動故障 unable to set priority to 4CSS
- 多個資料庫是否可以共有一個Oracle 11g RAC例項KG資料庫Oracle
- DRM特性引起的RAC節點當機
- rac新增節點容易遇到的問題
- Gbase 8a資料庫節點替換資料庫
- Windows 11.2.0.4 RAC安裝配置以及RAC新增節點Windows