一次ODA當機分析
No. |
問題描述 |
優先順序 |
處理意見 |
1. |
1 節點當機 |
高 |
排查當機原因,確認是否有硬體模組損壞 |
2 |
Process 偏小 |
高 |
調整process引數 |
3 |
重複性 sql問題 |
高 |
建議使用繫結變數 |
4 |
資料庫審計開啟 |
高 |
建議關閉審計功能 |
5 |
本地檔案系統空間100% |
高 |
確認佔用空間的檔案並清理 |
6 |
資料庫安全性低 |
高 |
推進災備建設 |
資料庫1節點異常當機
透過現場當天去機房排查時發現,ODA資料庫機1節點伺服器處於異常當機狀態(即不可用)。此時,所有的業務都連至ODA機2節點,導致所有的業務負載均在2節點上。在業務高峰期時,會加劇2節點資源的爭用,由此可能會引起資料庫效能問題。
建議:在業務低峰期時,嘗試重啟ODA資料庫機1節點,確認1節點異常當機原因以及是否有硬體模組損壞。
本地系統空間/opt、/u01使用率100%
排查時發現,資料庫軟體安裝目錄/u01空間基本滿了,客戶反饋/u01空間使用曾達到100%,當資料庫安裝目錄空間滿掉,會造成資料庫不可用或者異常當機。透過分析發現,/u01下的資料庫相關日誌佔用掉很大一部分空間,比如listener.ora和listener_scan1.log就佔用掉幾十G磁碟空間。/opt目錄下部署了osw工具,保留了伺服器資源負載的監控日誌,但保留策略設定不合理導致/opt空間佔用100%。
建議:對/u01和/opt目錄下佔用大量磁碟空間的檔案進行分析及確認,最後進行清理。
設定不合理
從AWR報告中不難看出,系統分配的process數增長到1000,達到了資料庫設定的上限閾值。當達到閾值時,此時其他站點或者客戶端繼續連入資料庫,就會直接報錯,從而影響業務。建議調整資料庫引數process閾值。
重複性sql問題
從AWR報告分析,資料庫中存在大量的類似SQL,這將大大的增加資料庫解析的成本,在業務高峰期時段,大量的該類SQL高頻執行,將會極大的加劇資源的消耗,由此可能會引發資料庫效能問題。建議對該類SQL使用繫結變數。
資料庫審計未關閉
預設啟用的審計選項,表示審計資料將記錄在 中的SYS.AUD$審計字典基表上。在11g中CREATE SESSION將被作為受審計的許可權來被記錄,因此當SYSTEM表空間因磁碟空間而無法擴充套件時將導致這部分審計記錄無法生成,最終普通使用者的新會話將無法正常建立,普通使用者將無法登陸資料庫。導致資料庫整體掛起。其次,該審計記錄會持續佔用system系統空間,非常容易使得system表空間達到閾值,由此可能會造成資料庫當機。建議關閉資料庫預設的審計功能。
容災備份相關問題
跟客戶溝通交流中, ODA資料庫機就單純的兩個節點的RAC架構。當前,RAC架構中1節點異常當機,只有2節點單獨執行。在沒有任何災備的前提下,若遭遇突發情況,導致資料庫不可用,將極大的影響業務。考慮配置第三方容災產品,增加資料庫的安全性。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23732248/viewspace-2770885/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- JVM當機分析JVM
- 從一次Kafka當機說起(JVM hang)KafkaJVM
- 記一次 Redis Cluster 當機引發的事故Redis
- 解Bug之路-記一次對端機器當機後的tcp行為TCP
- 記一次Kafka伺服器當機的真實經歷!!Kafka伺服器
- 記一次 oracle 資料庫在當機後的恢復Oracle資料庫
- ORA-04031錯誤導致當機案例分析
- 記一次小機器的 Python 大資料分析Python大資料
- dolphinscheduler 實現master當機故障轉移能力原始碼分析AST原始碼
- Redis當機恢復Redis
- mongoDB當機修復MongoDB
- 記一次 Mysql 日期使用不當造成的 bugMySql
- 記一次線上問題引發的對 Mysql 鎖機制分析MySql
- IBM WebSphere Portal當機或效能低常見問題分析 及解決措施IBMWeb
- Redis當機 快速恢復Redis
- 【漏洞分析】20240507-SATURN:當閃電貸遇上有缺陷的通縮機制
- 記一次HttpClient使用問題分析HTTPclient
- 一次線上OOM問題分析OOM
- 對一次 GC日誌的分析GC
- 記一次NAS故障分析(ZFS NFS)NFS
- 一次library cache lock 問題分析
- 當失控的預裝行為以非正當手段伸向行貨機時_北京鼎開預裝刷機資料統計apk(rom固化版)分析APK
- 執行緒池運用不當的一次線上事故執行緒
- 突發:當機崩潰OOMOOM
- 當.NET遇到機器學習機器學習
- Gmail全球大規模當機AI
- Oracle當機案例彙總(一)Oracle
- 電腦經常當機是什麼原因 電腦經常當機解決方法
- 一次DG故障診斷過程分析
- 記一次dump檔案分析歷程
- 一次資料庫響應慢分析資料庫
- 一次ORACLE字元轉換分析過程Oracle字元
- 記一次 Node.js 原始碼分析Node.js原始碼
- 我們最後一次需要你提供當前 Windows 密碼Windows密碼
- 當移動資料分析需求遇到Quick BIUI
- 主機當機從來沒讓人失望過
- win10當機怎麼辦_win10頻繁當機藍屏修復方法Win10
- w10無故當機怎麼辦_win10開機幾秒後就當機修復方法Win10