2022年12月18日上午,阿里雲釋出《阿里雲香港可用區C某機房裝置異常》公告。“阿里雲監控發現香港地域某機房裝置異常,影響香港地域可用區C的雲伺服器ECS、雲資料庫PolarDB等雲產品使用,阿里雲工程師已在緊急處理中。”
在這個寒冷的冬天,一個炸雷給業界驚起了一個大波浪。很多人不解的是說好的高可用呢。說好的N個9呢?SLA 就是個笑話,服務該掛不還是掛了。雖然經過十幾個小時,阿里雲香港節點服務恢復了,資料也恢復了,終於可以讓各位老闆鬆了口氣,估計很多運維的小夥伴已經開始遷移服務或者開始做備份了。
但是並不是每個公司都這麼幸運,不知道還有誰記得「前沿數控」這個公司,當初因為所有資料都在雲硬碟上,結果因為雲硬碟故障,導致公司的所有資料全部丟失,一夜回到解放前,也不知道官司現在結果如何了。
經過阿里雲這次大故障,估計很多老闆都會考慮可靠性的問題了,尤其是服務和資料的安全。再心大的老闆估計也得讓人做個服務和資料的冷備份,稍微懂點的得用混合雲搞搞,估計再也沒人嘲笑那些自建小容器雲、自建機房的公司了。
公有云故障和公司內部服務處理方式區別很大
之前一個老闆問我說公司內部要不要搞一個StatusPage?我說可以搞,但是優先順序不高,等以後有精力有時間了可以搞。公司內部的很多服務會不會出問題,哪裡出問題,怎麼解,其實很多時候都是有固定答案的,你一回想就能知道哪裡可能有問題。很多時候我們並不是缺少一個和使用者溝通的渠道,而是我們故障預案都沒有,也從來沒有演練過。出故障是肯定的,只是不確定什麼時候發生而已。先把重要的事,不做就得死的事做了、做好了再考慮其它的。
StatusPage,一句話描述就是:當你的線上業務當機時,StatusPage 允許你和你的客戶進行溝通,告知他們當前服務的狀態和問題處理進展。業務正常服務狀態下,客戶也可以檢視當前服務狀態是否正常。同時,客戶也可以檢視這一業務所有歷史上的問題發生和處理記錄。
公司內部我們有很多的渠道與使用者溝通。在公司內部,一般都有系統的使用者群,當服務掛了,各種監控告警就會發出來,系統相關人都會注意到,第一時間在群內周知。這個和公有云的服務還是有很大不同的。
再好的預案沒演練過也只是預案
就像平時,很多公司都會聲稱我們的系統有備份能還原。實際上很多時候也只是一個備份、還原「預案」。結果最後真的需要還原的時候發現,要麼備份沒成功,要麼備份成功了但是資料陳舊,要麼找到資料了但是無法還原。。。。總之結論就是沒法還原。做這行久了,八卦也就有了,我身邊血淋淋的案例太多了,此處我想 at 下我全大哥 :)
線上服務故障演練
我們真的需要對線上服務進行故障演練。針對各種故障場景下服務的容錯能力、配置合理性、服務健壯性、監控告警實效性、定位與解決問題應急能力等進行演練。發現線上服務的薄弱環節,提升服務的容錯性和可恢復性。
別有僥倖心理,踏實幹事,一步一個腳印才能讓掉坑裡的次數少點。
相關閱讀
中國雲服務走向全球?先把 Status Page 搞定
我們可以信任阿里雲的故障處理嗎?