HP-UX上一次Oracle軟體安裝目錄磁碟空間滿導致的故障
客戶反饋,應用端出現了磁碟讀寫錯誤:
同時,登入資料庫時也出現了錯誤:
同時,使用者反饋說部分業務已經中斷
登入作業系統, 通過查詢gv$instance檢視,得知是一個雙節點的11gR2的叢集
檢查節點1的資料庫告警日誌,ASM告警日誌,CRSD日誌,未發現近期可疑錯誤資訊
登入節點2, 發現資料庫服務的/oracle目錄的空間佔用已達到100%。檢查磁碟檔案空間佔用發現, 監聽的產生的listener.log, XML檔案佔用了大量空間,遂清理之
從報錯日誌來看,磁碟寫入出現了問題,懷疑資料檔案有物理壞塊。但是用dbv userid/password file='+DATA/資料庫名/datafile/system.345' 並未檢查出有壞塊
清理出oracle軟體安裝目錄之後,使用者反映業務已經恢復正常。 但是對於這個錯誤還是有點不解,為什麼磁碟空間的問題會導致資料檔案寫入的錯誤。
繼續檢查:
ASM的告警日誌中出現瞭如下的資訊:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1
Writing to the above trace file is disabled for now on...
Non critical error ORA-48113 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_14098.trc"
Error message:Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance
這裡已經出現了ASM連線中斷的資訊。
難怪會出現磁碟讀寫錯誤
清理掉日誌檔案之後,告警日誌裡也沒有新的資訊寫入
檢查叢集元件狀態:
$ /oracle/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
CRS服務已經出現了問題
總結:
應可以推斷出,/oracle目錄磁碟空間佔滿,導致了資料庫例項通過ASM讀寫資料檔案時,登入ASM出現了錯誤。 此時就出現了前文中所示的寫入system表空間的錯誤
這裡還有一個比較關鍵的提示:
ORA-29701: unable to connect to Cluster Sychironization Service
這裡已經是叢集層面的程式出現問題了。與資料檔案本身並無聯絡(清理空間後業務也恢復了正常)
同時給了客戶建議:
改善建議:
1. 建議部署crontab指令碼,定期清理/oracle目錄下的監聽日誌以及日誌相關的xml檔案
2.
CRS叢集本身已經出現了問題,且經過很久之後也未恢復,建議重啟CRS叢集服務
通過
/oracle/grid/bin/crsctl stop crs
/oracle/grid/bin/crsctl start crs
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8520577/viewspace-2156173/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 記一次Oracle故障:磁碟空間滿Oracle
- MySQL 磁碟空間滿導致表空間相關資料檔案損壞故障處理MySql
- Oracle 安裝目錄空間不夠處理Oracle
- ORACLE的歸檔空間滿導致的監聽故障資料庫無法啟動Oracle資料庫
- 解決docker容器存放目錄磁碟空間滿了問題Docker
- oracle goldengate 目標端表空間滿導致程式abended處理過程OracleGo
- 10g ORACLE_HOME空間滿導致SYSAUX表空間離線OracleUX
- Linux下安裝Oracle軟體所在目錄LinuxOracle
- ORACLE 歸檔空間滿導致的enq: TX - row lock contentionOracleENQ
- Oracle SYSAUX 表空間使用率100% 導致的DB 故障OracleUX
- undo表空間滿導致的ogg discard檔案寫滿
- Linux索引節點(inode)用滿導致的一次故障Linux索引
- 由於gcc軟體包沒有安裝導致的Oracle安裝失敗GCOracle
- oracle的臨時表空間寫滿磁碟空間,解決改問題的具體步驟Oracle
- Oracle軟體安裝目錄資訊Inventory作用以及如何重建此目錄 - 2Oracle
- Oracle軟體安裝目錄資訊Inventory作用以及如何重建此目錄 - 1Oracle
- Elasticsearch 磁碟空間異常:一次成功的故障排除案例分享Elasticsearch
- ASM空間爆滿導致資料庫掛起ASM資料庫
- AWR不自動刪除導致SYSAUX表空間滿UX
- Linux檢視磁碟目錄記憶體空間使用情況Linux記憶體
- oracle的還原表空間UNDO寫滿磁碟空間,解決該問題的具體步驟Oracle
- 伺服器磁碟空間滿了伺服器
- ORACLE DATAGUARD災備歸檔空間滿導致的ORA-00600 [2619]Oracle
- Oracle目錄由於TFA觸發bug導致jdb檔案未自動清理引起空間不足Oracle
- undo表空間佔用磁碟空間滿案例處理
- dataguard standby備庫磁碟空間滿(ZT)
- HP-UX中dev目錄下的磁碟字元裝置,塊裝置及新舊命名UXdev字元
- 根目錄空間不足導致開啟Managed Server狀態變成FAILED_NOT_RESTARTABLEServerAIREST
- 克隆ORACLE軟體的導致的問題Oracle
- Oracle10g中的flashback啟用日誌歸檔,寫滿空間導致錯誤Oracle
- VMware之Ubuntu20.04擴充根目錄磁碟空間Ubuntu
- 記一次ORACLE的UNDO表空間爆滿分析過程Oracle
- RAC因為localhost磁碟空間不夠導致has程式掛起localhost
- Oracle 擴充磁碟空間Oracle
- hp-ux記憶體不足導致交換UX記憶體
- Oracle表空間切換路徑,解決硬碟滿導致的ORA-01653問題Oracle硬碟
- oracle BUG 5890312導致表空間瞬間暴漲Oracle
- 虛擬磁碟空間滿後的擴充套件方法套件