自11月9日第六次資料庫伺服器 CPU 100% 故障之後,今天下午又出現資料庫伺服器 CPU 100% 故障,是今年的第七次。
今天的故障發生於 16:01~16:07 期間,發現故障後我們立即重啟阿里雲RDS例項,重啟後恢復正常。
正準備釋出這篇故障公告時,資料庫伺服器又出現 CPU 100%,我們立即改用主備切換,切換後恢復正常。
這次故障給大家帶來了麻煩,請大家諒解。
我們使用的阿里雲 RDS 例項規格是「SQL Server 2016 標準版-高可用系列-16核32G」,這個 CPU 100% 問題很奇怪,可能是因為引數嗅探問題造成 SQL Server 快取了效能極差的執行計劃,我們會對照上次故障期間效能最差的 SQL 進一步排查。
更新:
- 在主備切換時,以為第一次切換沒成功,切換了2次,所以切換後用的還是原來的 SQL Server 例項,即使這樣也恢復了正常。
- 本想看一下故障期間效能差的 SQL,但阿里雲 RDS 控制檯似乎出了問題,“效能最佳化”中資料不能正常顯示