騰訊雲稱99.9999999%的資料可靠性,那十億分之一栽在哪裡?

劉美利發表於2018-08-07

近日,騰訊雲故障致資料丟失事件一出,一時間就上了各大熱搜榜,由於騰訊雲物理硬碟韌體版本bug問題導致檔案系統後設資料損壞,直接使前沿數控技術這家正值發展階段的創業公司兩年來積累的資料全部丟失,幾乎致使企業一朝回到創業初期。

基於此次事件,網上的評論可謂是五花八門,有人說騰訊雲賠款過於形式,賠款太少,至少也應該百萬以上!還有網友主打同情牌,認為騰訊雲是背鍋者,一個資料至上的創業公司竟沒有做好資料備份的準備,出了事就全盤推外。

當然,對於這一攬子的評論,我們質疑的矛頭主要指向了以下幾個問題:騰訊雲稱99.9999999%的資料可靠性,搭載了雲硬碟三副本儲存策略,但為何還是出現如此災難性事件?另外,一個資料至上的創業公司竟然因為外部雲伺服器的問題致使企業內部資料全部丟失,責任究竟在誰?市場上各種雲伺服器承諾安全可靠、多副本備份以及容災策略,就真的可以百分百依靠嗎?網際網路時代,我們應該如何保證資料安全?

資料丟失責任判定,問題究竟出在哪一方?

在回答這一個問題之前,筆者整理了今年部分雲服務廠商故障案例。

6月28日,阿里雲控制檯訪問出現故障,導致官網時好時壞,後臺登入不上,其中圖片伺服器也掛掉。受其影響的不僅僅是阿里巴巴自家的淘寶天貓,阿里雲作為全球領先的雲端計算服務平臺,故障直接導致國內半個網際網路癱瘓。

7月17日,亞馬遜核心產品——AWS雲服務出現中斷,客戶使用帳戶登入時遇到間歇性錯誤,無法訪問AWS管理控制檯。管理控制檯是客戶控制他們從Web使用AWS資源的方式的入口,該功能出現故障,客戶將無法實現AWS資源的調配。

7月18日,谷歌雲平臺全域性負載均衡服務發生中斷故障,直接影響Snapchat、Spotify和Discord等一批社交app無法使用。谷歌方面稱,故障的根本原因在於谷歌的全域性負載均衡系統基於谷歌前端服務(GFE)的雙層架構啟用了新的功能,這些功能在測試階段並未發現問題,但隱藏的bug卻在事件開始時的生產環境被觸發了。

7月24日上午,騰訊雲服務出現異常當機事故,導致部分使用者無法訪問微信介面,業務崩潰。官方稱,當時監控到廣州區域部分使用者資源訪問失敗,初步確定運營商光纜中斷。約兩個小時後,騰訊雲在微博釋出通知,表示“廣州區域部分使用者資源訪問失敗、控制檯登入異常問題已解決。”並解釋說,“故障已確定是運營商光纜中斷所致”。

僅僅從今年的部分雲服務故障案例就可以看出雲服務廠商也不是完美的,很多問題都是不可避免的。那麼把事件反映到問題上,作為一家創業公司,公司內部的資料必然非常重要,但是在沒有任何備份等安全維護措施下就將資料全部託管在雲伺服器上未免不妥,只要雲服務廠商出現任何一點故障問題,創業公司就極可能出現致命性損失。

從騰訊的公告我們可以看出,騰訊雲檢測到異常後,第一時間向使用者告知故障狀態,並立即組織檔案系統專家並聯合廠商技術專家嘗試修復資料,但最終仍有部分資料完整性校驗失敗。如此小概率事件發生在前沿數控身上,很多網友認為將全部的責任推給騰訊雲是不大合適的,製造企業因為供應商的“失誤”,出現問題的屢見不鮮,但是很多事情都是環環相扣。面對這件事,騰訊雲可能佔主要責任,但前沿數控也有責任,公司資料安全運維人員應該意識到資料的重要性,但該公司卻沒有任何的資料備份準備。

所謂的CVM搭載雲硬碟提供三副本儲存策略此時為何沒有任何作用?

有技術人士表明,有3份資料冗餘,在冗餘機制正常工作的情況下是不可能丟失資料的,那麼就很可能是冗餘備份程式出現bug,這種事情很常見。另外現在硬碟的使用壽命很長,質量相對而言也是沒有問題的,但盤陣同時壞多塊盤的情況也會發生,所以即使是完全周密的保障也不能百分百安全。

很多雲服務廠商都會向外宣傳自己的承諾,就像騰訊雲稱99.9999999%的資料可靠性,但是我們也不能完全依賴這樣的承諾就將自己的全部家產寄託於上,各大廠商之所以不敢承諾100%的資料可靠性,為的就是留條後路,至於後路有多長,那也要看bug有多大。所以,對於我們受眾方來說,無論是否上雲,重要資料做好災備都是最重要的。

真正乾貨:維護資料安全4大要點 :

經過這件事,我們也瞭解到上雲也不是絕對安全的,那麼企業應該如何警惕:

1、  雲伺服器是最佳選擇,但還是要有相應的運維計劃。

雲伺服器對創業公司來說依舊是最佳選擇,不要因噎廢食,自建伺服器成本更高,管理更難,風險控制更復雜,發生資料丟失,服務中斷的可能性更大,想達到現在各種商業雲伺服器的安全保護等級,付出的帶價要遠遠大於直接租用雲伺服器。但選擇雲伺服器,一定要做好相應的運維計劃,特別是資料安全保護方面。

2、  做好資料的安全保護,保護的力度視資料的重要程度而定。

做資料保護的時候,要按照資料的重要程度進行儲存,重要資料進行必要的多備份儲存,這樣即使出現問題也不會損失慘重。

3、  有一定的資料安全保護意識,有系統性的規劃措施。

從此次騰訊雲事件可以總結出,安全性周密的雲服務也會出現問題,即使不是因為硬碟問題,隨便一個工作人員的操作失誤都可能是一場蝴蝶效應。所以,無論公司規模大小,公司都要有資料安全保護意識,從自我保護的角度來看,企業需要有系統性的規劃來保護資料,而不是單一的靠某一個點。

4、上雲不能保證絕對安全,企業要建立完整的備份機制,把握資料主動權。

多雲資料也會出現丟失或者洩露,絕對的雲安全是不存在的,並且國內所有云服務商都沒有明確的賠償機制,一旦資料丟失,損失的還是受眾公司。另外上雲之後,遭受的黑客攻擊會明顯增多,所以無論如何,企業應該做好本地備份,將資料主權掌握在自己手裡。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31542119/viewspace-2199350/,如需轉載,請註明出處,否則將追究法律責任。

相關文章