自9月第五次資料庫伺服器 CPU 100% 故障之後,今天下午又出現資料庫伺服器 CPU 100% 故障,是今年的第六次。
自從園子2013年搬上阿里雲,幾乎每年都會遇到資料庫伺服器 CPU 100% 問題,但今年創造了新記錄,一年還未結束,卻已遭遇六次,最困難的一年,連故障也過來湊熱鬧。
今天的故障發生於 14:28~14:50 期間,我們在 14:30 左右發現故障,立即採用故障處理三板斧之第一斧——重啟RDS例項,重啟後恢復正常,但很快又出現 CPU 100%,緊接著採用故障處理三板斧之第二斧——主備切換,切換完成後恢復正常。
我們租用的阿里雲 RDS 規格是 SQL Server 2016 標準版-高可用系列-16核32G,這個 CPU 100% 問題很奇怪,可能是因為一隻老鼠壞了一鍋湯——引數嗅探問題造成 SQL Server 快取了效能極差的執行計劃,但我們不能確認就是這個原因,可能要等以後自己用阿里雲伺服器部署 SQL Server 才能驗證。
這次故障給大家帶來了麻煩,請大家諒解。
更新:接下來我們會對故障期間效能差的 SQL 進行最佳化。