【當機根本原因的線索】:這個問題與一個叫做BGP路由的東西有關,且極有可能與配置失誤有關。
【影響時間長的線索】:當時facebook的辦公網無法連線外網, 極有可能是影響時長達6小時的原因,因為無法登入伺服器修復線上問題。
【當機時間段】:2021-10-04 23:39〜2021-10-05 06:45
週一,Facebook、INSTAGRAM、WhatsApp 和 Oculus 的當機使馬克·祖克伯帝國的每個角落都下線。這是一種社交媒體停電,最貼切的說法是“徹底”停電,而且似乎難以被解決。
Facebook本身尚未確認其當機的根本原因,但網際網路上流傳很廣。與DNS記錄無法訪問的時間相吻合,該公司的所有應用程式在美國東部時間上午11點40分開始從網際網路上消失了。 DNS通常被稱為網際網路的電話簿;它將您輸入到URL的主機名(如 facebook.com)轉換為IP地址,即這些站點所在的IP地址。
DNS事故很常見,如果有疑問,它們就是特定站點當機的原因。它們可能由於各種不穩定的技術原因而發生,通常與配置問題有關,並且可以相對簡單地解決。然而,這一次,似乎發生了更嚴重的事情。
網路威脅情報公司Bad Packets的首席研究官Troy Mursch說,“Facebook 的當機似乎是由DNS引起的;然而,這只是表象。” Mursch說,根本問題是(其他專家也同意) Facebook已經撤回了所謂的邊界閘道器協議(BGP)路由器,此路由器包含了DNS伺服器的IP地址。如果DNS是網際網路的電話簿,那麼BGP就是它的導航系統;它決定資料在資訊高速公路上行駛時採用的路線。
“你可以把它想象成電話遊戲,但不是人們在玩,而是較小的網路,讓彼此知道如何聯絡對方。他們向鄰居宣佈這條路線,他們的鄰居會將其傳播給他們的鄰居。” 網路監控公司Cisco ThousandEyes的產品營銷總監 Angelique Medina 說。
這裡很多術語,但很容易說清楚,Facebook已經從網際網路地圖上消失了。如果您現在嘗試 ping這些,正如Mursch所說,“這些資料包最終進入了一個黑洞,” 。
地圖顯示了由於DNS解析失敗而無法訪問Facebook。由CISCO THOUSAND EYES提供
https://www.thousandeyes.com/...
顯而易見但仍未解決的問題是為什麼這些BGP路由器首先消失了。這不是一種常見的問題,尤其是在這種規模或持續時間。在當機期間,Facebook除了一條推文外沒有說別的,“正在努力盡快讓事情恢復正常”。在週一下午晚些時候服務逐漸恢復後,Facebook發了一份仍然缺乏任何技術細節的宣告。 該公司表示, “對於今天受到我們平臺中斷影響的每個人:我們很抱歉!我們知道全世界有數十億人和企業依賴我們的產品和服務來保持聯絡。我們感謝您的耐心等待。”
與 WIRED 交談的網際網路基礎設施專家都表示,最可能的答案是Facebook的配置錯誤。網際網路基礎設施公司Cloudflare的技術長John Graham-Cumming表示:“看起來Facebook對他們的路由器做了一些事情,這些路由器將Facebook網路連線到網際網路。”他強調說他不知道細節發生了什麼。畢竟,他說,網際網路本質上是網路的網路,每個網路都向另一個網路宣傳它的存在。這一次,Facebook停止了廣告。
這也意味著不僅僅是Facebook的外部服務受到影響。例如,您不能在第三方網站上使用Facebook登入。而且由於公司自己的內部網路無法訪問外部網際網路,據報導,其員工今天也無法工作。 (Instagram 執行長亞當·莫塞裡(Adam Mosseri)甚至在推特上說“感覺就像下雪天。”)
這也解釋了為什麼需要這麼長時間才能恢復執行。 2019年,谷歌雲當機導致谷歌工程師無法登入谷歌雲來修復谷歌雲當機。 Facebook 似乎至少有可能陷入類似的 catch-22,無法訪問網際網路來修復BGP路由問題。
梅迪納說,“好訊息是,一旦 Facebook能夠恢復任何配置,它應該很快就會恢復業務。 “當它得到糾正後,交通將真正開始流動,”
與此同時,網際網路的其它應用也感受到了Facebook的當機。或者,更具體地說,像 Cloudflare這樣的DNS解析器(將域名轉換為IP地址的服務)監控到了平常流量的兩倍之多,因為人們一直試圖載入 Facebook、Instagram 和 WhatsApp。這些請求不足以壓倒整個系統,但激增的流量提醒人們網際網路確實是相互依賴的,有時甚至是脆弱的。
引用來自《Why Facebook, Instagram, and WhatsApp All Went Down Today》