【故障公告】突然猛增的巨量請求沖垮一共92核CPU的k8s叢集

部落格園團隊發表於2021-11-16

非常抱歉,今天下午2點左右開始,部落格站點突然猛增的巨量請求讓k8s叢集的節點伺服器不堪重負,造成網站無法正常訪問,由此給您帶來麻煩,請您諒解。

當時k8s叢集一共6臺node伺服器,2臺32核64G,2臺8核64G,1臺8核16G,1臺4核6G,部落格站點一共跑了19個pod,如果不是突然猛增的巨量請求,可以穩穩撐住。

但是今天下午的請求排山倒海,比昨天還要高(昨天GA統計的UV超過1000萬,其中有很多異常請求),伺服器CPU們拼盡全力也無法扛住,最終兵敗如山倒。

【故障公告】突然猛增的巨量請求沖垮一共92核CPU的k8s叢集

發現故障後,我們開始加伺服器,一共加了5臺伺服器(2臺8核64G,1臺16核64G,2臺4核8G),並逐步將 pod 切換到新加的伺服器。

剛剛熱身並完成健康檢查的 pod 們從未經受如此的高併發考驗,切換後剛上戰場就倒下的情況頻頻出現,所以,雖然加了足夠的伺服器,但恢復正常需要一個過程,一邊要等新 pod 撐住,一邊發現體力不支的舊 pod 並強制結束,直到 15:30 之後才逐漸恢復正常。

經過初步分析,這些突增的請求多數是非正常使用者的請求,這樣的請求沒有訪問熱點,每次請求的 url 不一樣,讓快取有力使不上。

這次故障就向大家簡單彙報到這。

這次的請求量增幅是我們之前從未遇到過的,我們毫無準備,而且目前k8s叢集還沒實現自動伸縮,我們還需要時間去準備。

相關文章