【故障公告】週五下午的一次突發故障

部落格園團隊發表於2022-02-18

原文網址 : https://www.cnblogs.com/cmt/p/15910907.html

非常抱歉，今天下午 16:30-17:15 期間，由於出現突發故障，造成園子無法正常訪問，由此給您帶來麻煩，請您諒解。

故障經過如下：

16:30 開始，Kubernetes 叢集上部落格站點的部分 pod 出現請求執行時間慢（5-10秒）的問題。

16:43 開始，請求執行時間慢的問題更加嚴重，開始出現執行時間超過10秒的請求。

16:50 開始，出現大量資料庫連線超時的日誌：

System.Data.SqlClient.SqlException (0x80131904): Timeout expired. The timeout period elapsed prior to completion of the operation or the server is not responding.

同時資料庫伺服器的 CPU 從正常時期的 30% 以下飆升至 45% 多。

這時我們判斷資料庫伺服器可能會超載，於是做了一個艱難的決定——按下“高速中換輪胎”的緊急按鈕，啟動了資料庫的主備切換。

16:55 左右完成主備切換，但資料庫的主備切換會造成 pod 因健康檢查失敗而重啟，在訪問高峰的高併發請求下，重啟後的 pod 很容易出現不堪重負的無奈情況。

直到 17:10 左右才基本恢復。

最後剩下一款體質較差的 pod，重啟後一接入負載總是不堪重負，落到它上面的請求就響應緩慢，拿它一點辦法沒有。

後來，急中生笨方法，既然體質弱的現實無法改變，那就接受這個現實，不讓它幹活就行，怎麼讓它不幹活呢？在舊 pod 被刪除之後與新 pod 啟動完成健康檢查之前，這個階段 pod 是不幹活的，只要讓它一直處在這個階段就行。於是盯著這款 pod，一等它完成健康檢查有負載進來就刪除它，用這個笨方法熬過訪問高峰，體質弱的 pod 就能繼續幹活了。

（故障完）

【故障公告】阿里雲 RDS 資料庫突發 CPU 近 100% 引發全站故障
2020-08-20
阿里資料庫
【故障公告】部落格系統升級到 .NET 5.0 引發的故障
2020-10-15
【故障公告】資料庫伺服器 CPU 100% 引發全站故障
2022-01-31
資料庫伺服器
【故障公告】redis 伺服器當機引發部落格站點故障
2021-07-14
Redis伺服器
【故障公告】資料庫伺服器再次 CPU 100% 引發全站故障
2021-05-01
資料庫伺服器
【故障公告】資料庫伺服器 CPU 100% 引發網站故障
2021-04-28
資料庫伺服器網站
【故障公告】K8s CofigMap 掛載問題引發網站故障
2021-01-27
K8S網站
【故障公告】取代 memcached 的 redis 出現問題造成網站故障
2022-06-23
Redis網站
【故障公告】訪問高峰資料庫伺服器 CPU 100% 引發全站故障
2020-11-03
資料庫伺服器
【故障公告】阿里雲OSS故障造成圖片無法上傳
2023-11-12
阿里
故障公告：黑色星期四
2020-12-10
【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問
2020-06-24
阿里
【故障公告】阿里雲 RDS SQL Server 資料庫例項 CPU 100% 引發全站故障
2021-03-30
阿里SQLServer資料庫
【故障公告】攻擊式巨量併發請求再次來襲，引發部落格站點故障
2023-03-05
【故障公告】資料庫伺服器 CPU 100% 造成全站故障
2024-10-23
資料庫伺服器
【故障公告】阿里雲搶佔式例項伺服器被釋放引發全站故障
2023-05-08
阿里伺服器
【故障公告】Kubernetes 叢集節點當機造成部落格站點故障
2023-03-03
【故障公告】14:30-15:30左右，資料庫伺服器異常情況引發全站故障
2021-05-07
資料庫伺服器
【故障公告】資料庫伺服器今年第七次 CPU 100% 故障
2023-12-07
資料庫伺服器
【故障公告】資料庫伺服器今年第六次 CPU 100% 故障
2023-11-09
資料庫伺服器
【故障公告】部落格站點再次出現故障，最終回退 .NET 5.0 恢復正常
2020-11-12
【故障公告】Memcached 的“惹禍”，不知在為誰背鍋
2020-11-10
【故障公告】龍捲風來襲：突增的併發請求，撐不住的CPU
2022-03-10
【故障公告】騰訊雲簡訊服務故障造成無法傳送手機簡訊
2020-08-13
服務案例|故障頻發的一週，居然睡得更香！
2023-11-22
【故障公告】誤新增的過濾規則引發所有博文訪問500
2021-06-30
《高併發下的.NET》第2季 - 故障公告：高併發下全線崩潰
2020-12-04
記一次Ubuntu網路故障
2024-07-18
Ubuntu
【故障公告】被放出的 Bing 爬蟲，又被爬當機的園子
2023-04-26
爬蟲
記一次Kafka叢集的故障恢復
2018-11-19
Kafka
記一次詭異的故障排查經歷
2018-07-24
記一次自動恢復的支付故障
2019-05-09
【故障公告】遭遇用心良苦的瘋狂攻擊：DDoS + CC攻擊
2023-10-02
記一次網路故障排障
2020-02-24
記一次NAS故障分析（ZFS NFS）
2022-03-11
NFS
一次SGA與Swap故障診斷
2021-06-17
【故障公告】部落格站點遭遇大規模 DDoS 攻擊
2024-08-23
ORA-00130 引發的故障
2018-03-26

【故障公告】週五下午的一次突發故障

相關文章