【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問

部落格園團隊發表於2020-06-24

【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問

非常抱歉,今天凌晨 3:20~8:30 左右,我們使用的阿里雲 RDS 例項 SQL Server 2016 標準版突然出現 CPU 100% 故障,造成全站無法正常訪問,由此給您帶來巨大的麻煩,請您諒解。

問題很奇怪,故障期間是資料庫伺服器負載極低的時間段。從阿里雲 RDS 控制檯 CloudDBA 看,故障期間下面的一個 SQL 語句大量執行,並且極其消耗 CPU 。

【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問

【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問

開始我們以為是這個 SQL 語句引發的故障,但排查下來這個 SQL 語句本身並沒有效能問題,而且已經使用了至少6個月。

最終恢復正常是通過 RDS 的2次主備切換,當發現故障後,我們立即進行主備切換,但切換後 CPU 依然 100% ,然後我們排查 SQL 語句的問題,排查未果,然後又進行一次主備切換,才恢復正常。

事後分析後發現應該是第一次主備切換沒有成功完成,阿里雲 RDS 控制檯檢視不到主備切換日誌,但2次切換,只有第2次收到郵件通知,由此可以推斷。

您的雲資料庫RDS例項:xxx(名稱:enable or disable task fetching while rds2slb transgfer.)任務觸發切換完畢,請檢查程式連線是否正常,建議設定自動重連機制以避免切換影響。

問題的原因有待進一個分析,再次抱歉由此給您帶來的麻煩。

相關文章