HP-UX上一次Oracle軟體安裝目錄磁碟空間滿導致的故障

abstractcyj發表於2018-06-14
接到電話,告知公司負責的某維保客戶資料庫出現了故障

客戶反饋,應用端出現了磁碟讀寫錯誤:

同時,登入資料庫時也出現了錯誤:


同時,使用者反饋說部分業務已經中斷
登入作業系統, 通過查詢gv$instance檢視,得知是一個雙節點的11gR2的叢集
檢查節點1的資料庫告警日誌,ASM告警日誌,CRSD日誌,未發現近期可疑錯誤資訊
登入節點2, 發現資料庫服務的/oracle目錄的空間佔用已達到100%。檢查磁碟檔案空間佔用發現, 監聽的產生的listener.log, XML檔案佔用了大量空間,遂清理之

從報錯日誌來看,磁碟寫入出現了問題,懷疑資料檔案有物理壞塊。但是用dbv userid/password file='+DATA/資料庫名/datafile/system.345' 並未檢查出有壞塊

清理出oracle軟體安裝目錄之後,使用者反映業務已經恢復正常。 但是對於這個錯誤還是有點不解,為什麼磁碟空間的問題會導致資料檔案寫入的錯誤。

繼續檢查:
ASM的告警日誌中出現瞭如下的資訊:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1

Writing to the above trace file is disabled for now on...

Non critical error ORA-48113 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_14098.trc"

Error message: 
Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance

這裡已經出現了ASM連線中斷的資訊。
難怪會出現磁碟讀寫錯誤

清理掉日誌檔案之後,告警日誌裡也沒有新的資訊寫入
檢查叢集元件狀態:

 $ /oracle/grid/bin/crsctl check crs

CRS-4638: Oracle High Availability Services is online

CRS-4535: Cannot communicate with Cluster Ready Services

CRS-4529: Cluster Synchronization Services is online

CRS-4533: Event Manager is online


CRS服務已經出現了問題
總結:

應可以推斷出,/oracle目錄磁碟空間佔滿,導致了資料庫例項通過ASM讀寫資料檔案時,登入ASM出現了錯誤。 此時就出現了前文中所示的寫入system表空間的錯誤

這裡還有一個比較關鍵的提示:
 ORA-29701: unable to connect to Cluster Sychironization Service
    這裡已經是叢集層面的程式出現問題了。與資料檔案本身並無聯絡(清理空間後業務也恢復了正常)


同時給了客戶建議:

改善建議:

1.  建議部署crontab指令碼,定期清理/oracle目錄下的監聽日誌以及日誌相關的xml檔案

2.  CRS叢集本身已經出現了問題,且經過很久之後也未恢復,建議重啟CRS叢集服務
通過
   /oracle/grid/bin/crsctl stop crs
   /oracle/grid/bin/crsctl start crs



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8520577/viewspace-2156173/,如需轉載,請註明出處,否則將追究法律責任。

相關文章