資料庫連線異常故障報告

yingyifeng306發表於2021-05-06

5 月10號早上11點21分,有人反應應用慢打不開,登陸orcl1資料庫,存在tx鎖,有大量阻塞會話。5月10日下午,反應應用連不上主機。

 

查詢鎖源頭,將鎖殺掉。排查資料庫伺服器狀態。

 

關於鎖的問題

獲取2017-05-10 11 00 - 12 00 的歷史ash 資訊

Create table m_asm as select * from dba_hist_active_sess_history where sample_time between

To_timestamp(‘2017-05-10 11:00:00’,’yyyy-mm-dd hh24:mi:ss’) and To_timestamp(‘2017-05-10 12:00:00’,’yyyy-mm-dd hh24:mi:ss’) ;

select  instance_number,event,count(*) from m_ash group by instance_number,event order by 3;

可以看出鎖等待最嚴重的在2 節點上

 

 

查詢鎖等待的會話被哪個會話堵塞

可以看到1 節點的252 號會話堵塞了187 個會話,而且其鎖定了兩張表,導致前面兩條sql 被後續的會話執行的時候全部等待

根據1 節點在故障時期記錄的日誌

 

這個trace 說明了252 號會話的作業系統程式號是67595 ,根據netstat 查詢器對應的客戶端ip 192.46.109.3

繼續查詢可以發現該ip 對應的主機名為

因此可以判斷該客戶端的會話被異常結束導致其持有的鎖沒有釋放進而導致了大批次的鎖衝突

 


 

 

關於 5 10 日下午頻繁出現應用連結不上資料庫伺服器問題已經找到

 

4 13 日日誌,4 13 日儲存crs 盤已經斷開過,導致rac 軟體叢集狀態不正常,crs 程式沒有,重啟節點後恢復正常。    

叢集alert 日誌

叢集Asm 日誌

作業系統日誌/var/log/messages

 

 

 

5 10 日下午重啟主機後還是出現相同狀況,crs 盤掉了,導致叢集服務不正常,應用無法正常連線資料庫。確定是儲存問題,crs 盤間歇性dismount ,將資料庫切換至容災,到時候排查儲存問題。

 

ß

 

 

 

1、 加強對硬體的檢查,定期檢視硬體日誌

2、 加強資料庫方面的監控

3、 保證容災的穩定性,以便發生災難時順利切換

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23732248/viewspace-2770896/,如需轉載,請註明出處,否則將追究法律責任。

相關文章