隨著越來越多企業及應用將資料搬上雲端,伺服器上的每一個小小的當機,都可能引發一場大災難。
雲伺服器
倒黴的0.01%
3月3日凌晨,阿里雲出現當機故障。受當機故障影響,華北不少網際網路公司APP、網站紛紛癱瘓,一大波程式設計師、運營和運維不得不從被窩裡爬起來幹活。
更重要的是,這已經不是阿里雲第一次出現故障。網友“上海藍盟網路夏立成”調侃,“阿里雲一年一當機,今年特別早”。而在當機驚魂之後,人們需要思考當機故障何以屢屢發生,事後該如何賠償?
驚魂三小時
針對阿里雲此次當機,58高階架構師沈劍稱,事故持續了3個小時左右,事後觀察了2個小時。當機最直接的影響是,購買阿里雲服務的企業網站或APP無法正常使用。
如果說“無法使用”還是一個抽象名詞,那麼受影響的企業能夠提供比較具象的理解。
孔夫子舊書網3日釋出宣告稱,由於阿里雲大規模故障,導致孔網暫時無法使用。言外之意,在當機的這段時間內,使用者將無法在孔網購買商品。
再比如同日釋出宣告的即嗨比分(一家足球賽事直播應用平臺)稱,阿里雲當機導致即嗨部分模組出現卡頓現象,即使用者體驗出現下降。
依次類推,阿里雲出現故障面積越大,受影響的企業和使用者也就越多。
在當機故障發生大約1小時後,阿里雲官方回應稱,華北2地域可用區C部分ECS伺服器等例項出現IO HANG,經緊急排查處理後逐步恢復。
中新社國是直通車查詢阿里雲官網顯示,阿里雲服務從地域上可以分為亞太、歐洲與美洲、中東與印度三大塊,而具體到亞太又包括華北、華東、華南、香港等13個分割槽。
通常,為了降低網路時延、提高客戶訪問速度,企業會選擇購買靠近客戶的地域。因此,此次當機故障發生後,“華北可謂是亂成一鍋粥”。
而隨著越來越多企業及應用將資料搬上雲端,伺服器上的每一個小小的當機,都可能引發一場大災難。
阿里雲歷次當機
作為國內最大的雲服務商,這並不是阿里雲第一次當機。
2018年6月,阿里雲出現大規模訪問異常,圖片服務等產品無法正常使用,官網賬號也無法登陸。官方公佈,該故障是因為運維上的一個操作失誤。事後,阿里雲表示,將敬畏每一行程式碼,敬畏每一份託付。
2016年10月,阿里雲華東1地域可用區B部分也曾發生過ECS伺服器IO HANG的事故。
再往前,2015年9月,阿里云云盾的安騎士產品升級觸發bug導致了使用者ECS裡的部分正常檔案被誤隔離。原因是,程式設計師寫錯了一行程式碼。也是在當年,阿里雲啟動了“百倍時間賠償計劃”。
另有媒體統計,2012年、2013年、2014年阿里雲都曾出現不同程度的故障。
據市場研究機構IDC日前報告,阿里雲市場份額位居中國第一,佔比達到43%,相當於第二至第九名的總和。排名其後的分別是,騰訊雲、中國電信、AWS、金山雲、Ucloud、微軟、百度雲和華為雲。
如此大體量,阿里雲每次的當機都會給客戶帶來不小影響。
與其給客戶帶來的負面影響相反,阿里雲憑藉中國大市場已經躋身全球雲服務領先地位。
阿里巴巴1月30日公佈財報顯示,阿里雲營收規模為213.6億元,4年間增長約20倍,成為亞洲最大的雲服務公司。上一年,這一數字為111.7億元。
當機如何賠償?
在此次當機事件發生後,阿里雲表示,將根據SLA協議,儘快處理賠償事宜。
“SLA協議”即,服務等級協議(Service Level Agreement,簡稱 “SLA”)。根據阿里雲官網資料顯示,對於單ECS例項,如服務可用性低於99.95%,使用者可獲得月度服務費10%、25%、100%不等的賠償。
賠償方案
此外,華為雲、騰訊雲的賠償標準均與此相似。
一位雲端計算企業工程師告訴中新社國是直通車,雲服務發生故障的賠償基本以“送時間”為主。比如此前,阿里雲就執行過“百倍時間賠償”。
阿里雲伺服器
“但這點賠償有時候與企業的損失差距巨大。”前述工程師舉例,如果京東淘寶5分鐘不能登陸,這得損失多少錢。
針對此次當機,也有網友提出,除了賠使用時長和代金券,還應該賠償“加班費”,不少運維和程式設計師從被窩裡爬起來加班。
而對企業而言,他們最關心是如何避免發生故障。
有分析人士認為,儘管雲服務商承諾99.99%的安全可靠性,但誰都有可能是那倒黴的0.01%。因此,避免故障通常有兩種做法,一種是資料備份,並定期更新;一種是不把雞蛋放在同一個籃子裡,使用一個以上的雲服務提供商。
但這無疑都會增加企業的成本。雲服務商如何更可靠,仍是一個待解之題。