LGWR寫操作會導致效能全域性卡頓案例分析

龍山游龍發表於2024-02-20

一、故障描述

某次,使用者某套資料庫出現了非常嚴重的效能問題,資料庫響應變的很慢,業務這塊幾乎出現全域性不可用的情況,情況非常緊急。業務恢復後,我們對該資料庫進行自上而下的分析,發現在故障時間段的確出現了大量的等待事件,諸如: log  file sync log  file parallel write 等,經過下鑽分析,定位主機資源使用也出現了瓶頸。下文,我們將詳細展開分析。

二、根因分析

查詢資料庫異常時間內的等待事件,發現被 5 152 程式阻塞

5 152 程式進行查詢發現阻塞的事件為 log  file parallel write

透過 osw對異常期間內磁碟io狀態,發現s dp dm -29 盤在效能故障期間繁忙程度為 1 00 %

當天,下午 16點53分

       第二天,上午 9點0 3

三、解決方案

根據業務操作超時時間追蹤定位,超時期間資料庫等待log file sync 異常激增,造成等待的原因為磁碟 IO hang 住導致 lgwr 日誌寫程式等待 ,業務緊急切換到 2 節點後恢復正常。業務正常後,我們初步懷疑可能是 1 節點到儲存鏈路有問題,隨後使用者參考了我們的意見,拉通儲存產商檢查了儲存控制器、光纖鏈路、光模組、 H BA 卡等,最終核實了儲存問題。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/30310891/viewspace-3006893/,如需轉載,請註明出處,否則將追究法律責任。

相關文章