Oracle 連線有時候慢,應用稍微一忙,偶爾出現連線失敗 的故障解決過程

zhulch發表於2008-09-15
...[@more@]環境:
IBM AIX5.3ML04(IBM P595)+HACPM5.2+Oracle10.2.0.2 RAC(2節點)+IBM 8100 儲存

故障描述:
- Oracle 系統連線很慢,有時候甚至應用連線失敗

分析過程:
- 檢視資料庫alert.log ,無發現任何錯誤資訊
- 檢視其他所有的日誌,都未發現任何異常
- 檢查所有的Oracle db 和CRS 程式都正常
- 檢查系統等待gc cr multi block request 很多
- 檢查HACMP的心跳線,測試速度都正常
- VIP/私有IP的相互通訊都正常
- 檢查CRS的日誌沒異常
- METALINK發了TAR ,分析了半天也沒什麼結果
- 檢查CRS和VOTING 所在的幾個lv的IO 讀寫速度,發現有時候速度有點慢,CRS/VOTING沒什麼大的讀寫.
所以表面看讀寫還算正常,沒引起特別的重視
- 檢查其他Oracle datafile 所在的lv 的IO 速度,速度很正常
- 把IBM 工程師叫過來,一起檢查作業系統和儲存的問題.
- 諮詢所有和系統有關的人:最近沒對作業系統和儲存做過任何的調整,並且這個系統這樣正常跑了半年多了
- IBM 工程師檢查了作業系統和儲存沒發現任何的異常的日誌
- 資料庫方面無可能出現的問題,唯一的就是CRS/VOTING所在的LV有點慢,但有時候特別正常.
- CRS/VOTING 所在的lv和其他datafile 都在IBM 8100儲存上同一個LUN上,理論上要出問題,應該是整體出問題,所以,很奇怪
- IBM 8100 上沒任何DISK的報警

解決過程:
- 判定可能是CRS/VOTING所在的LV 的IO出現問題
- 正常停掉ORACLE DB和CRS等程式
- 備份CRS/VOTING 等所在的VG,
- 在IBM 8100 上把CRS/VOTING所在的VG的對應的LUN中的所有DISK全踢掉,換成新的一組盤.
- 重新匯入VG
- 重新修改CRS/VOTING以及其他DATAFILE的檔案屬性.
- 啟動系統後正常
- 經過正常應用使用後,系統一切正常

總結:
- 再高階的儲存,也會出現很異常的問題
- DBA 不能光注重ORACLE 的問題,還要注重周邊裝置的問題
- DBA 要有判斷周邊裝置可能出現問題的能力,讓作業系統或者儲存的工程師知道是他們負責的地方出了問題

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7318139/viewspace-1010694/,如需轉載,請註明出處,否則將追究法律責任。

相關文章