當國內人民歡度假期的時候，網際網路巨頭Facebook卻收穫了“負面新聞大禮包”。

負面之一，就是長達6小時的全球大當機。

據說，這是Facebook創辦以來最嚴重的一次網路訪問事故，除了Instagram、Whatsapp、Messenger這幾大海外衝浪必備平臺，虛擬現實平臺Oculus的遊戲，部分企業端服務以及很多需要Facebook賬號登入的平臺都上不去了，就連Facebook公司的內網也受到影響。要知道，這裡可匯聚了全球最厲害、薪酬最高的一大批程式設計師啊!

網際網路公司當機，並不是一件很稀奇的事。

今年早些時候，國內某影片平臺就因為伺服器突然故障，一度崩潰，大量使用者“流浪”到其他網站，巨大的流量洪峰又讓其他平臺也連鎖式癱瘓了，各廠程式設計師們都感受到了被當機統治的恐懼，一度登上微博熱搜，被網友戲稱為——網際網路內卷之《誰也別想睡覺》。

同樣是當機，為什麼Facebook就面臨著“非死不可”的吐槽聲，而不是一笑了之呢?

這可能是因為，Facebook龐大的產品生態，已經不再是娛樂衝浪的一部分，而成為了數字生活的基礎設施。

尤其是在疫情之後，許多企業服務、辦公教育等都依賴網際網路來完成，服務中斷會直接導致嚴重的經濟損失。

在WhatsApp(Facebook旗下一款類似微信的軟體)的官網就顯示，巴黎的醫療人員會在WhatsApp 群組內更新醫院病床、資源等資訊;印度企業依靠WhatsApp售賣產品;巴西政府、醫療和教育系統都透過WhatsApp提供C端服務，比如接收考試成績、遠端預約掛號等等。

可想而知，作為數字化底座的網際網路服務，一旦中斷，將連帶產生不少次生災害。

而面對當機，我們第一時間總會想到雲服務商，雲中斷導致的問題，網際網路企業自然也是受害者。

不過，像Facebook這樣的巨頭，往往核心業務和資料都放在自家資料中心的伺服器上。這次當機之後，就有不少工程師“打飛的”到位於加州的主資料中心參與維修，科技媒體The Verge還曾爆料，因為門禁卡失效，工程師們使用切割機，鋸開了資料中心的伺服器鐵籠。

Facebook面臨的挑戰，也是許多網際網路巨頭的縮影：一方面，作為數字化底座，最大程度地保證基礎設施的穩定性、可靠性，是巨頭們應盡的社會責任;同時，又不能將希望全部都放在雲服務上，增加了IT系統的複雜度和運維難度。

這次大型當機事件也掀開了全面上雲的另一面，為什麼網際網路巨頭們都沒有把雞蛋放在一朵雲上?

不是唯一的答案：雲服務的另一面

網際網路公司，可謂是雲服務的先遣部隊。在傳統行業還不知道什麼是網際網路浪潮、什麼是雲的時候，網際網路公司就成了雲廠商的高價值客戶。

常規情況下，網際網路企業會將移動應用、電商之類前端流量業務放到雲上，以節省自建機房的高昂成本。

不過，別看網際網路企業上雲這麼積極，它們可是“狡兔三窟”，一邊遷移上雲，一邊也有本地數字基礎設施。2018年，Facebook斥資10億美元在新加坡打造了亞洲首個資料中心，這也是它在全世界的第15個資料中心。相當於一邊從發電廠買商業用電，但也在造自己的發電機。

這兩年來，上雲浪潮如火如荼，出現了一些觀點，認為雲服務會徹底消除資料中心，但事實上，越來越多的企業在嘗試讓部署資料中心上的舊應用升級，而不是將一切業務都雲化。

甚至有企業IT人員告訴我，他們可能會讓自家的資料中心永遠運轉下去。

要知道，資料中心幾乎佔據了企業網路支出的最大組成部分，每年需要支付不小的租金和改造、維護費用，這無疑會增加額外的成本，為什麼網際網路企業依然堅持這麼做呢?

第一，傳統機房可能會當機，但上雲也未必完全穩定。

雲服務雖然不需要維護傳統機房，資料儲存、計算都在雲端，但幾乎沒有哪個雲服務廠商實現過100%的連續性，都出現過計劃外的停機。2017年，IBM、AWS、谷歌、蘋果等主要雲服務提供商也都經歷過雲中斷，將Netflix、Quora、Reddit和 Foursquare等熱門應用“一波帶走”，影響了大大小小的企業。

第二，成本效益很重要，但資料資產安全更重要。

雲服務能夠避免維護機房帶來的麻煩，但除非付費搭建私有云，否則依然要與其他雲使用者共享硬體資源，這就使得企業無法對遠端硬體擁有足夠的控制權。任何擁有憑據的人可以從任何有網路連線的地方訪問雲端資料，也意味著廣泛的接入點，如果不能在每個位置都部署安全措施，那麼傳輸的資料風險也很大。

要論最安全、最可控，還是要屬自建資料中心，只允許擁有憑證和裝置的人才能訪問本地網路，可以讓企業完全控制資料，以及基礎硬體，更適合那些業務複雜多元的組織。

第三，多雲/混合雲有幫助，但無法徹底解決顧慮。

既然這樣，不把雞蛋放在一個籃子裡，一次用兩個甚至兩個以上的雲，不就可以在出現故障時快速啟動“備胎”嗎?道理雖然如此，但多雲部署的成本很高，並且依然不能完全防止短期終中斷，有時還需要人工參與，並不像我們想象的那樣能夠瞬間絲滑切換。

比如Gov.uk 就在亞馬遜的 CloudFront服務上執行了備份 CDN，但需要人工干預才能切換到備份。

而適合建設雲基礎設施的環境也常常會出現扎堆的情況，從而導致幾家雲服務商要停機就一起停的尷尬。此前，亞馬遜和微軟在愛爾蘭都柏林的雲基礎設施，就因為遭遇雷暴天氣，讓使用亞馬遜EC2和微軟BPOS服務的客戶都當機了。

另外，並不是所有的雲都是完全開放、可互操作的，這時候為了用好每一個雲平臺，企業還需要透過多個系統來配合，增加了額外的支出和運維難題。

所以說，只有足夠可靠的雲服務，才能打消客戶的顧慮，從本地容災備份、混合雲等其他方案，轉變為全面依賴雲，並且只依賴某一朵雲。

當許多人呼籲著，把雲看作萬能神藥的時候，必須考慮一個前提：雲服務怎樣才能變得足夠穩定和安全?而這一點，似乎跟現實還有點距離。

安全力Max：Facebook的冗餘啟示錄

歸根結底，想要業務更可靠，每個組織都沒有“一刀切”的解決方案。

公共雲、私有云、混合雲或傳統資料中心，如何選擇應該按照不同企業、不同資料隱私敏感度、成本預算等來綜合考量。

簡單來說，傳統資料中心成本高，控制強，很適合那些已經在IT方面進行了大量投資，對資料隱私要求謹慎的組織，所以像Facebook這樣涉及到全球幾十億使用者資訊的網際網路企業，資料中心是必須配置的。

而大多數企業，完全沒有必要自己搭建伺服器。直接上雲省心又省力，可以快速搭建起網路業務，但過程中必須對隱私訪問進行密切監控。

而即擁有IT 基礎設施的大型組織，但也希望開始雲之旅的大型企業和組織，可以同時嘗試混合雲，將雲平臺的所有優勢都“一網打盡”。不過，跟蹤多個雲可能會比較棘手，往往需要第三方儀表板等協助。

看到這裡，你可能會發現數字時代業務安全的核心密碼：冗餘思維。分別來自：

硬體的冗餘，有充足的伺服器保障，如果整個資料中心受到衝擊，資料可以複製到其他地理位置的資料中心上;

服務的冗餘，利用多個雲服務商的服務耦合，比如主要雲服務商停電期間，二級供應商的雲服務可以作為補救措施，確保業務繼續;

視角的冗餘，更多資料來源頭也被納入考量中來，比如工業部門常見的邊緣裝置，感測器、監視器和控制/驅動裝置等，就正在成為雲時代的“新資料來源”，需要被納入到主動管理中來，比如增加DNS(域名解析服務)解決方案，避免單一DNS中斷或減速。

VMware的一些統計資料表明，未來五年內，許多組織的工作負載將按 30% 資料中心、40%公有云，以及 30% 的邊緣計算來分佈。

從這個角度來說，雲市場還有不少空間可待挖掘，廠商之間的明爭暗鬥還將持續一段時間。

而企業在數字化過程中考慮雲服務時，也需要重視三個基本前提。

1.將雲安全作為優先事項。網際網路充滿了機會，也意味著無法繼續躲在防火牆背後得到充分的保護，因此安全必須作為重中之重。

2.引入多雲和混合雲策略。如果對雲端安全不瞭解，那麼引入多個雲供應商可以有效降低被單一雲鎖定的風險，為雲策略的後續最佳化留下空間。

3.優先將前端流量處理業務遷移上雲。尤其是大量影片和音樂流量的業務，可以遷移到雲上，靈活擴充套件頻寬，避免網路使用高峰時響應不及時的情況發生。而一些放在原本資料中心的應用，仍然留在本地設施上。

Facebook的故事背面，是網際網路巨頭託舉起國家和社會服務的現實景象，這也使我們反思，一味強調雲，是不是將數字化想得過於簡單。

雲服務產生的變革固然讓人興奮不已，但這並不代表，雲就會幹掉傳統資料中心，或者某朵雲“獨霸天下”。

容納共存，在這個基礎上重新定義雲和網路服務，或許會幫我們看清新資訊科技的新模式，以及雲市場的新機會。

Facebook當機事故，暴露了上雲不是唯一的答案

相關文章