騰訊雲也崩了。。

Java技术栈發表於2024-04-09

大家好,我是R哥。

昨天騰訊雲崩了,事情大概是這樣的,15 點多的時候有好幾位粉絲向我反饋,說小程式「Java面試庫」不能正常載入答案,我看了下後臺系統日誌,發現騰訊雲環境 API 介面呼叫異常

然後發現小程式開發工具和雲開發環境也進不去了:

心裡判定大機率是騰訊雲出了故障,於是我跑去平臺交流社群看了下,果然發現滿屏的小程式和騰訊雲故障的問題

騰訊雲控制檯也進不去了:

明確了是騰訊雲的故障,我緊急向「Java面試庫」微信群釋出了故障通知,在和粉絲的溝通中,也有粉絲說客戶用的騰訊雲 API 也報錯了:

大約等到 16:40 左右,騰訊雲小程式雲環境部分終於恢復了,但粉絲反饋說騰訊雲控制檯還是死的:

同時,我瞭解到此次故障可能是由於全面升級雲端儲存解決方案造成的,升級的目標是使資料清洗和訓練耗時縮短一半,結果此訊息剛發沒多久,雲產品就全線崩潰。。

從 15 點多發生故障,再到 17:16 徹底恢復,整個過程耗時超過一個半小時,全年不可用時間超過 90 分鐘,這意味著騰訊雲的 2024 年度 SLA 服務可用性已經達不到 4 個 9 了,即 99.99%

達到 99.99% 需要全年不可用時間不超過 52.6 分鐘,關於 SLA 服務可用性的計算可以參考這篇:SLA 服務可用性 4 個 9 是什麼意思?怎麼達到?

雖然現在的網際網路使用者都對雲故障習以為常了,包容性也更強了,但這麼長時間不可用,這對目前來說嚴重依賴雲服務的企業來說是不可接受的,可能會面臨巨大損失。


最後,此事件也讓我吸取教訓了。

我對小程式「Java面試庫」作了以下調整最佳化:

一、服務降級

當遇到不可抗力的故障外,給出降級策略:

1、呼叫雲環境 API 介面部分,採用快取策略,定時拉取最新資料並快取到本地,如果呼叫 API 失敗即使用本地快取,這樣可以做到 99% 的使用者不受雲環境 API 故障影響。

2、不在快取中的資料,提醒使用者類似如 “騰訊雲故障,官方正在修復中,請稍候重試...” 的友好說明,避免對面試庫產生誤會。

二、定期備份資料

雖然騰訊雲有定期備份策略,但關鍵的資料還得自己備份存檔,以防止意外發生。


最近面試的人還挺多了,小程式「Java面試庫」所用的騰訊雲頻寬都開始報警了:

不過還好,只是偶爾的高峰而已,外網出頻寬使用率還沒超過平均值,有面試需要的來小程式「Java面試庫」刷題吧,面試庫更新了 3 年+,從 0 更新到現在 2500+ 道題,幫助很多小夥伴找到了工作,也有不少進入大廠的案例。

昨天小程式因官方故障,有個粉絲說他 5 點還有面試:

看來不少人對我的Java 面試題依賴還挺深,裁員越來越多,刷題面試找工作的人也越來越多,今年我也會繼續最佳化和升級服務,儘可能保證刷題可用性和穩定性。

更多文章推薦:

1.Spring Boot 3.x 教程,太全了!

2.2,000+ 道 Java面試題及答案整理(2024最新版)

3.免費獲取 IDEA 啟用碼的 7 種方式(2024最新版)

覺得不錯,別忘了隨手點贊+轉發哦!

相關文章