一次ODA當機分析

yingyifeng306發表於2021-05-06

No.

問題描述

優先順序

處理意見

1.

1 節點當機

排查當機原因,確認是否有硬體模組損壞

2

Process 偏小

調整process引數

3

重複性 sql問題

建議使用繫結變數

4

資料庫審計開啟

建議關閉審計功能

5

本地檔案系統空間100%

確認佔用空間的檔案並清理

6

資料庫安全性低

推進災備建設


 

資料庫1節點異常當機

透過現場當天去機房排查時發現,ODA資料庫機1節點伺服器處於異常當機狀態(即不可用)。此時,所有的業務都連至ODA機2節點,導致所有的業務負載均在2節點上。在業務高峰期時,會加劇2節點資源的爭用,由此可能會引起資料庫效能問題。

建議:在業務低峰期時,嘗試重啟ODA資料庫機1節點,確認1節點異常當機原因以及是否有硬體模組損壞。

本地系統空間/opt、/u01使用率100%

排查時發現,資料庫軟體安裝目錄/u01空間基本滿了,客戶反饋/u01空間使用曾達到100%,當資料庫安裝目錄空間滿掉,會造成資料庫不可用或者異常當機。透過分析發現,/u01下的資料庫相關日誌佔用掉很大一部分空間,比如listener.ora和listener_scan1.log就佔用掉幾十G磁碟空間。/opt目錄下部署了osw工具,保留了伺服器資源負載的監控日誌,但保留策略設定不合理導致/opt空間佔用100%。

建議:對/u01和/opt目錄下佔用大量磁碟空間的檔案進行分析及確認,最後進行清理。

 

設定不合理

從AWR報告中不難看出,系統分配的process數增長到1000,達到了資料庫設定的上限閾值。當達到閾值時,此時其他站點或者客戶端繼續連入資料庫,就會直接報錯,從而影響業務。建議調整資料庫引數process閾值。

重複性sql問題

從AWR報告分析,資料庫中存在大量的類似SQL,這將大大的增加資料庫解析的成本,在業務高峰期時段,大量的該類SQL高頻執行,將會極大的加劇資源的消耗,由此可能會引發資料庫效能問題。建議對該類SQL使用繫結變數。

 

資料庫審計未關閉

預設啟用的審計選項,表示審計資料將記錄在 中的SYS.AUD$審計字典基表上。在11g中CREATE SESSION將被作為受審計的許可權來被記錄,因此當SYSTEM表空間因磁碟空間而無法擴充套件時將導致這部分審計記錄無法生成,最終普通使用者的新會話將無法正常建立,普通使用者將無法登陸資料庫。導致資料庫整體掛起。其次,該審計記錄會持續佔用system系統空間,非常容易使得system表空間達到閾值,由此可能會造成資料庫當機。建議關閉資料庫預設的審計功能。

 

容災備份相關問題

跟客戶溝通交流中, ODA資料庫機就單純的兩個節點的RAC架構。當前,RAC架構中1節點異常當機,只有2節點單獨執行。在沒有任何災備的前提下,若遭遇突發情況,導致資料庫不可用,將極大的影響業務。考慮配置第三方容災產品,增加資料庫的安全性。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23732248/viewspace-2770885/,如需轉載,請註明出處,否則將追究法律責任。

相關文章