【故障公告】阿里雲 RDS 資料庫突發 CPU 近 100% 引發全站故障

部落格園團隊發表於2020-08-20

【故障公告】阿里雲 RDS 資料庫突發 CPU 近 100% 引發全站故障

今天晚上9點我們收到阿里雲的告警通知:

【阿里雲監控】華東1(杭州)-雲資料庫RDS版<cnblogsdb> [instanceId=xxx] 於21:00 發生告警, 前往診斷 CPU使用率平均值(98.25>=80 ), 持續時間4分鐘, rds_CpuUsage

收到通知後,我們立即登入阿里雲 RDS 控制檯進行主備庫切換,等主備庫完成切換後一看並沒有切換過來,趕緊再次進行切換,第2次切換成功了,切換完成後 CPU 立刻降至正常水平,全站恢復正常。

這次故障發生時間是8月20日20:55~21:14,由此給您帶來麻煩,請您諒解。

上次發生同樣故障是6月24日,詳見 【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問

阿里雲資料庫專家分析後懷疑是“LINQ 生成的 SQL 存在問題,導致概率性 SQL Server 出現引數嗅探問題”。

我們會進一步分析並優化這次引發引數嗅探問題的 SQL 語句。

相關文章