Tailscale 的 TLS 證書過期,網站掛了 90 分鐘!

米开朗基杨發表於2024-04-09

3月7日,基於 WireGuard 的知名 VPN 廠商 Tailscale 的官方網站 tailscale.com 因 TLS 證書過期而中斷服務約90分鐘

雖然影響有限,但這起事件還是在 Hacker News 等論壇引發了熱烈的討論和反思。

網友們紛紛表達了自己的看法。smackeyacky 感慨道:“我說過一次,現在我要再說一次:證書過期已然成為新時代服務中斷的頭號殺手。

Tailscale 聯合創始人 bradfitz 也第一時間在 Hacker News 回應,介紹了事發原因和應對過程。原來,他們在去年12月進行了一次大規模的網站遷移,涉及底層架構、域名解析等多個環節的重構。為了支援 IPv6,他們還特意搭建了額外的代理伺服器。

但令人始料未及的是,這個看似無傷大雅的改動,竟然埋下了禍根。由於代理伺服器終止了 TLS 連線,加上 DNS 配置的疏忽,監控系統沒能及時發現證書已經過期的警告。bradfitz 坦言,這次事故暴露出團隊在變更管理和風險評估方面還有很大的提升空間。

這波 “辯解”,你買賬嗎?讓我們來看看網友們怎麼說。

j45 就提出了質疑:如果 IPv6 如此重要,為什麼當初要選擇一家壓根不支援的供應商呢?bradfitz 只能苦笑,表示公司內部在這個問題上尚未達成共識。

lmeyerov 則一針見血地指出,關鍵指令碼和文件不應該放在營銷頁面上,那無異於 “身敗名裂”。

更有意思的是,大家對 Tailscale 下一步的打算出謀劃策。amluto 建議他們最好換成 TCP 代理,這樣可以充分利用 Let's Encrypt 的 HTTP 驗證方式。agwa 的想法則更大膽:要不要試試每天自動更新證書?延長過期時間雖然安全,但如此頻繁的滾動更新,應該也不是什麼難事兒吧?

光說不練假把式,Tailscale 到底準備如何破局?bradfitz 表示,除了之前提到的監控改進,他們還計劃進一步簡化網路拓撲,減少對特殊方案的依賴。同時,為了防患於未然,還要像 “古人” 那樣設定每月提醒,專人盯防,避免證書過期時 “完犢子”。

但 bradfitz 也不忘自信滿滿地補充:Tailscale 的設計目標,本來就是打造一個彈性十足的網狀架構。即便控制平面偶爾抽風,使用者的連線狀態也不會受到影響。這次事故恰恰印證了他們的優勢所在。

Tailscale 本次的應對,可謂是基礎設施領域的 “教科書”。他們沒有避重就輕、諉過於人,而是勇於承擔責任;他們沒有急於修補、敷衍了事,而是深刻反思、觸及本質。這種開誠佈公、虛心接納的態度,值得每一個技術團隊學習。

回到本次事件,筆者認為,Tailscale 暴露出的問題絕非個案。在快速迭代的今天,任何平臺都難免經歷這樣那樣的折騰。但關鍵是要時刻保持警惕,尊重專業,關注細節。一念之差,可能就是業務中斷、口碑受損的起點。

尤其值得警惕的是 “身敗名裂” 式的設計。當一個看似不起眼的頁面或服務,成為了整個系統的 “生死簿”,我們就必須格外留心。是否應該適當解耦?是否需要特別最佳化?唯有未雨綢繆,才能降低 “黑天鵝” 事件的影響。

對創業公司而言,技術固然重要,但更要注重全域性觀。什麼是真正的剛需?什麼又是可以簡化的?架構師們需要時刻問自己這樣的問題。盲從所謂 “最佳實踐”,搞出一堆 “金玉其外敗絮其中” 的玩意兒,那就本末倒置了。

總而言之,Tailscale 的 “證書門”,為我們敲響了警鐘:安全可用是一切的基礎。必須透過周密的設計、嚴謹的態度,才能獲得使用者的信賴。相信 Tailscale 能夠從這次事件中汲取教訓,以更成熟、專業的姿態,打造真正韌性十足的服務,在 VPN 領域一路高歌。

儘管 Tailscale 因 TLS 證書過期導致了90分鐘的服務中斷,但這恰恰凸顯了它的一大優勢——多數使用者幾乎沒有受到影響。Tailscale 的分散式架構使得使用者端的連線不依賴於中心節點始終線上。這種彈性設計是 Tailscale 區別於傳統 VPN 的關鍵所在。短暫的中心服務中斷並不能否定 Tailscale 的價值,反而凸顯了其良好的容錯性。

相關文章