【故障公告】阿里雲搶佔式例項伺服器被釋放引發全站故障

部落格園團隊發表於2023-05-08

5月7日23:50-5月8日1:40期間,由於園子自建 k8s 叢集所使用的大部分阿里雲搶佔式例項伺服器被同時釋放,造成200多個 pod 當機,引發全站故障,由此給您帶來很大的麻煩,請您諒解。

在園子的日常運營成本中雲資源費用佔了1/3左右,為了節約成本,k8s 叢集的 worker node 主要使用阿里雲搶佔式例項伺服器,搶佔式例項有隨時被釋放的風險,如果少部分伺服器被釋放影響不大,今天遇到的是罕見的大部分伺服器被同時釋放。

我們會吸取教訓,靠節約無法服務好使用者,唯有自己變強。

相關文章