Facebook當機事故,暴露了上雲不是唯一的答案
當國內人民歡度假期的時候,網際網路巨頭Facebook卻收穫了“負面新聞大禮包”。
負面之一,就是長達6小時的全球大當機。
據說,這是Facebook創辦以來最嚴重的一次網路訪問事故,除了Instagram、Whatsapp、Messenger這幾大海外衝浪必備平臺,虛擬現實平臺Oculus的遊戲,部分企業端服務以及很多需要Facebook賬號登入的平臺都上不去了,就連Facebook公司的內網也受到影響。要知道,這裡可匯聚了全球最厲害、薪酬最高的一大批程式設計師啊!
網際網路公司當機,並不是一件很稀奇的事。
今年早些時候,國內某影片平臺就因為伺服器突然故障,一度崩潰,大量使用者“流浪”到其他網站,巨大的流量洪峰又讓其他平臺也連鎖式癱瘓了,各廠程式設計師們都感受到了被當機統治的恐懼,一度登上微博熱搜,被網友戲稱為——網際網路內卷之《誰也別想睡覺》。
同樣是當機,為什麼Facebook就面臨著“非死不可”的吐槽聲,而不是一笑了之呢?
這可能是因為,Facebook龐大的產品生態,已經不再是娛樂衝浪的一部分,而成為了數字生活的基礎設施。
尤其是在疫情之後,許多企業服務、辦公教育等都依賴網際網路來完成,服務中斷會直接導致嚴重的經濟損失。
在WhatsApp(Facebook旗下一款類似微信的軟體)的官網就顯示,巴黎的醫療人員會在WhatsApp 群組內更新醫院病床、資源等資訊;印度企業依靠WhatsApp售賣產品;巴西政府、醫療和教育系統都透過WhatsApp提供C端服務,比如接收考試成績、遠端預約掛號等等。
可想而知,作為數字化底座的網際網路服務,一旦中斷,將連帶產生不少次生災害。
而面對當機,我們第一時間總會想到雲服務商,雲中斷導致的問題,網際網路企業自然也是受害者。
不過,像Facebook這樣的巨頭,往往核心業務和資料都放在自家資料中心的伺服器上。這次當機之後,就有不少工程師“打飛的”到位於加州的主資料中心參與維修,科技媒體The Verge還曾爆料,因為門禁卡失效,工程師們使用切割機,鋸開了資料中心的伺服器鐵籠。
Facebook面臨的挑戰,也是許多網際網路巨頭的縮影:一方面,作為數字化底座,最大程度地保證基礎設施的穩定性、可靠性,是巨頭們應盡的社會責任;同時,又不能將希望全部都放在雲服務上,增加了IT系統的複雜度和運維難度。
這次大型當機事件也掀開了全面上雲的另一面,為什麼網際網路巨頭們都沒有把雞蛋放在一朵雲上?
不是唯一的答案:雲服務的另一面
網際網路公司,可謂是雲服務的先遣部隊。在傳統行業還不知道什麼是網際網路浪潮、什麼是雲的時候,網際網路公司就成了雲廠商的高價值客戶。
常規情況下,網際網路企業會將移動應用、電商之類前端流量業務放到雲上,以節省自建機房的高昂成本。
不過,別看網際網路企業上雲這麼積極,它們可是“狡兔三窟”,一邊遷移上雲,一邊也有本地數字基礎設施。2018年,Facebook斥資10億美元在新加坡打造了亞洲首個資料中心,這也是它在全世界的第15個資料中心。相當於一邊從發電廠買商業用電,但也在造自己的發電機。
這兩年來,上雲浪潮如火如荼,出現了一些觀點,認為雲服務會徹底消除資料中心,但事實上,越來越多的企業在嘗試讓部署資料中心上的舊應用升級,而不是將一切業務都雲化。
甚至有企業IT人員告訴我,他們可能會讓自家的資料中心永遠運轉下去。
要知道,資料中心幾乎佔據了企業網路支出的最大組成部分,每年需要支付不小的租金和改造、維護費用,這無疑會增加額外的成本,為什麼網際網路企業依然堅持這麼做呢?
第一,傳統機房可能會當機,但上雲也未必完全穩定。
雲服務雖然不需要維護傳統機房,資料儲存、計算都在雲端,但幾乎沒有哪個雲服務廠商實現過100%的連續性,都出現過計劃外的停機。2017年,IBM、AWS、谷歌、蘋果等主要雲服務提供商也都經歷過雲中斷,將Netflix、Quora、Reddit和 Foursquare等熱門應用“一波帶走”,影響了大大小小的企業。
第二,成本效益很重要,但資料資產安全更重要。
雲服務能夠避免維護機房帶來的麻煩,但除非付費搭建私有云,否則依然要與其他雲使用者共享硬體資源,這就使得企業無法對遠端硬體擁有足夠的控制權。任何擁有憑據的人可以從任何有網路連線的地方訪問雲端資料,也意味著廣泛的接入點,如果不能在每個位置都部署安全措施,那麼傳輸的資料風險也很大。
要論最安全、最可控,還是要屬自建資料中心,只允許擁有憑證和裝置的人才能訪問本地網路,可以讓企業完全控制資料,以及基礎硬體,更適合那些業務複雜多元的組織。
第三,多雲/混合雲有幫助,但無法徹底解決顧慮。
既然這樣,不把雞蛋放在一個籃子裡,一次用兩個甚至兩個以上的雲,不就可以在出現故障時快速啟動“備胎”嗎?道理雖然如此,但多雲部署的成本很高,並且依然不能完全防止短期終中斷,有時還需要人工參與,並不像我們想象的那樣能夠瞬間絲滑切換。
比如Gov.uk 就在亞馬遜的 CloudFront服務上執行了備份 CDN, 但需要人工干預才能切換到備份。
而適合建設雲基礎設施的環境也常常會出現扎堆的情況,從而導致幾家雲服務商要停機就一起停的尷尬。此前,亞馬遜和微軟在愛爾蘭都柏林的雲基礎設施,就因為遭遇雷暴天氣,讓使用亞馬遜EC2和微軟BPOS服務的客戶都當機了。
另外,並不是所有的雲都是完全開放、可互操作的,這時候為了用好每一個雲平臺,企業還需要透過多個系統來配合,增加了額外的支出和運維難題。
所以說,只有足夠可靠的雲服務,才能打消客戶的顧慮,從本地容災備份、混合雲等其他方案,轉變為全面依賴雲,並且只依賴某一朵雲。
當許多人呼籲著,把雲看作萬能神藥的時候,必須考慮一個前提:雲服務怎樣才能變得足夠穩定和安全?而這一點,似乎跟現實還有點距離。
安全力Max:Facebook的冗餘啟示錄
歸根結底,想要業務更可靠,每個組織都沒有“一刀切”的解決方案。
公共雲、私有云、混合雲或傳統資料中心,如何選擇應該按照不同企業、不同資料隱私敏感度、成本預算等來綜合考量。
簡單來說,傳統資料中心成本高,控制強,很適合那些已經在IT方面進行了大量投資,對資料隱私要求謹慎的組織,所以像Facebook這樣涉及到全球幾十億使用者資訊的網際網路企業,資料中心是必須配置的。
而大多數企業,完全沒有必要自己搭建伺服器。直接上雲省心又省力,可以快速搭建起網路業務,但過程中必須對隱私訪問進行密切監控。
而即擁有IT 基礎設施的大型組織,但也希望開始雲之旅的大型企業和組織,可以同時嘗試混合雲,將雲平臺的所有優勢都“一網打盡”。不過,跟蹤多個雲可能會比較棘手,往往需要第三方儀表板等協助。
看到這裡,你可能會發現數字時代業務安全的核心密碼:冗餘思維。分別來自:
硬體的冗餘,有充足的伺服器保障,如果整個資料中心受到衝擊,資料可以複製到其他地理位置的資料中心上;
服務的冗餘,利用多個雲服務商的服務耦合,比如主要雲服務商停電期間,二級供應商的雲服務可以作為補救措施,確保業務繼續;
視角的冗餘,更多資料來源頭也被納入考量中來,比如工業部門常見的邊緣裝置,感測器、監視器和控制/驅動裝置等,就正在成為雲時代的“新資料來源”,需要被納入到主動管理中來,比如增加DNS(域名解析服務)解決方案,避免單一DNS中斷或減速。
VMware的一些統計資料表明,未來五年內,許多組織的工作負載將按 30% 資料中心、40%公有云,以及 30% 的邊緣計算來分佈。
從這個角度來說,雲市場還有不少空間可待挖掘,廠商之間的明爭暗鬥還將持續一段時間。
而企業在數字化過程中考慮雲服務時,也需要重視三個基本前提。
1.將雲安全作為優先事項。網際網路充滿了機會,也意味著無法繼續躲在防火牆背後得到充分的保護,因此安全必須作為重中之重。
2.引入多雲和混合雲策略。如果對雲端安全不瞭解,那麼引入多個雲供應商可以有效降低被單一雲鎖定的風險,為雲策略的後續最佳化留下空間。
3.優先將前端流量處理業務遷移上雲。尤其是大量影片和音樂流量的業務,可以遷移到雲上,靈活擴充套件頻寬,避免網路使用高峰時響應不及時的情況發生。而一些放在原本資料中心的應用,仍然留在本地設施上。
Facebook的故事背面,是網際網路巨頭託舉起國家和社會服務的現實景象,這也使我們反思,一味強調雲,是不是將數字化想得過於簡單。
雲服務產生的變革固然讓人興奮不已,但這並不代表,雲就會幹掉傳統資料中心,或者某朵雲“獨霸天下”。
容納共存,在這個基礎上重新定義雲和網路服務,或許會幫我們看清新資訊科技的新模式,以及雲市場的新機會。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2795621/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Redis Cluster 當機引發的事故Redis
- 為什麼單元測試不是持續交付的唯一答案
- AI Pioneers|星海圖高繼揚:人形機器人不是具身智慧的唯一答案AI機器人
- 記一次 Redis Cluster 當機引發的事故Redis
- 執行緒池運用不當的一次線上事故執行緒
- 2021年10月4日Facebook當機的原因
- 20天發生三起事故,三星剛用上ChatGPT就洩露了機密資訊ChatGPT
- Facebook、WhatsApp、Instagram出現全球大範圍當機APP
- kafka線上事故Kafka
- Facebook 真的在窺視你,不是通過你手機的麥克風
- Facebook全球服務中斷,一週當機兩次
- 頭腦風暴問題而不是想法
- 史上最嚴重:Facebook 遭遇全球當機近 7 小時後重新上線,股價下跌5%
- 【故障公告】下班前的一場暴風雨,爬蟲爬至園當機爬蟲
- 透過谷歌當機事故看儲存運維三大重要趨勢谷歌運維
- Jira 雲產品當機多日,業界熱議上雲如何保障資料安全
- ThreadLocal引起的一次線上事故thread
- Facebook, Instagram, and WhatsApp當機事件的原因線索(2021-10-04晚開始)APP事件
- 再記一次 應用伺服器 CPU 暴高事故分析伺服器
- 當然不是草臺班子 雲譯網 原型設計+概要設計原型
- 當一名測試員遇到線上事故怎麼辦?2步學會快速定位
- Facebook當機背後,我們該如何及時發現DNS問題DNS
- 智慧雲解析的當機切換是如何實現的?如何有效預防伺服器當機?伺服器
- 從線上當機引起的問題談開去
- 離子風暴衰亡史(上)
- 助力企業資料上雲,當然選擇企業雲盤
- 全國唯一!這家企業的工業網際網路平臺上雲啦!
- 如何規避雲服務當機現象?
- 核彈級漏洞、Facebook當機,2021年發生了哪些網路安全大事件?事件
- 5G推動IDC需求暴增,雲服務存在機會
- 格拉納達大學:研究發現人們手機”上癮”的不是手機本身
- php生成唯一隨機碼PHP隨機
- 年度級“翻車”大盤點:當新遊遭遇事故,如何挽回“跌停”的口碑?
- 一次線上事故,我頓悟了非同步的精髓非同步
- 50%暴擊等於4下必暴 遊戲中的偽隨機你知道多少?遊戲隨機
- Facebook遭遇有史以來最嚴重當機事件,罪魁禍首與DNS故障有關?事件DNS
- Facebook、Instagram和WhatsApp全球當機超10小時,自稱與網路攻擊無關APP
- 這些童年小遊戲,竟是當代年輕人的“黃暴”啟蒙?遊戲