故障擴散與阻斷——系統防禦術

FunTester發表於2025-03-02

原文網址 : https://testerhome.com/articles/41674

太多的線上事故，很多看似無關緊要的小問題，最後卻像滾雪球一樣，越滾越大，最終演變成牽一髮而動全身的災難。在分散式系統裡，服務之間的關係就像一張精密編織的蜘蛛網，任何一個節點出問題，都可能引發連鎖反應，甚至拖垮整個系統。今天，咱們就來聊聊那些常見的故障模式，以及如何未雨綢繆，避免掉進這些坑裡。

故障擴散

雪崩效應

最典型的場景，就是某個服務頂不住了，導致請求堆積成山，進而拖垮整個系統。這種情況往往出現在突發流量暴增的時候，比如秒殺、促銷，或者某個定時任務意外觸發了大規模請求。一開始，可能只是資料庫壓力增大，導致查詢變慢，接著執行緒池被撐爆，服務響應時間越來越長，最終所有請求都被堵死，形成惡性迴圈。就像高速公路上突然多了一堆車，前面的開不動，後面的還在不斷湧進來，結果越堵越嚴重，誰都動彈不得。

級聯故障

有些服務就是整個系統的定海神針，比如身份認證、支付閘道器、訊息佇列。一旦這些核心服務當機，所有依賴它的業務都會被拖下水，後果不堪設想。之前有一次，我們的身份認證服務出了問題，導致所有業務系統全線癱瘓，使用者一個都登不上去，線上瞬間炸鍋，客服電話被打爆，工單像雪片一樣飛來，整個團隊被折騰得團團轉，真是按下葫蘆浮起瓢，一個窟窿還沒堵住，新的問題又接踵而至。

資源耗盡

有時候，故障的根源是關鍵資源被耗盡，比如 CPU 飆升、記憶體溢位、執行緒池滿載。最讓人頭疼的是，有些問題並不是一下子爆發的，而是像溫水煮青蛙一樣，悄悄積累，等大家察覺時，往往已經到了不可挽回的地步。記得有一次，我們的日誌系統因為一個不起眼的小 bug，導致磁碟空間一點點被蠶食，最終被徹底佔滿。結果所有寫入請求全部失敗，資料庫連線池也隨之崩潰，整個系統一片癱瘓，真是千里之堤，潰於蟻穴，一個小問題最後演變成了滅頂之災。

資料汙染

如果錯誤資料在系統裡傳播，影響範圍可能比單個服務當機還要廣，甚至讓整個業務邏輯陷入混亂。比如快取資料汙染，某個服務一不小心寫入了錯誤的快取資料，其他服務又從快取裡讀取這個錯誤資料，結果導致一連串的業務異常。之前就遇到過一個慘痛的案例，因為某個服務返回了錯誤的訂單狀態，導致使用者付款成功卻沒生成訂單，直接引發大規模投訴，客服被問得頭都大了，運營團隊也焦頭爛額，真是差之毫釐，謬以千里，一個小小的錯誤，最終釀成了大禍。

依賴迴圈

有些架構設計不合理，服務之間的呼叫形成了迴圈依賴，一旦某個服務出問題，請求就在幾個服務之間來回兜圈，最後把整個系統拖垮。之前見過一個慘痛的案例，A 呼叫 B，B 呼叫 C，C 又反過來呼叫 A，結果某個請求超時，導致所有服務都被卡死，執行緒池被佔滿，連健康檢查都無法執行，整個系統陷入死迴圈。最後只能手動重啟整個叢集，業務中斷，損失慘重，真是剪不斷，理還亂，一個小小的設計失誤，差點把公司拉進坑裡。

故障阻斷

線上故障並不可怕，可怕的是毫無準備，等到真出事了才驚慌失措，像無頭蒼蠅一樣亂撞，那時候再補救，往往已經付出了慘痛代價。故障預防講究未雨綢繆，提前做好防護措施，而不是等到系統崩潰了才想著救火。總結下來，預防故障主要靠以下幾招，掌握好了，至少能讓我們少掉幾根頭髮。

限流與降級：別讓請求擠爆服務

面對突發流量，最直接有效的辦法就是限流，防止系統被瞬間沖垮。常見的限流手段包括漏桶演算法、令牌桶演算法，可以有效控制 QPS，確保請求不會一窩蜂地衝進來，把服務擠爆。

除了限流，還要學會降級，非核心功能能簡化就簡化，別拖累整個系統。比如推薦系統掛了，與其讓頁面卡死，不如直接返回一個預設推薦列表，雖然精度差點，但至少使用者還能正常使用，避免影響主流程。正所謂留得青山在，不怕沒柴燒，該放棄的時候果斷放棄，別讓小問題拖成大事故。

熔斷機制：別讓壞服務拖垮整個系統

熔斷機制就像家裡的空氣開關，起到保護作用。當系統檢測到某個服務連續失敗時，它會立即觸發熔斷，短時間內直接返回錯誤，避免更多的請求湧入，防止整個系統被拖垮。這樣做的好處是，能夠快速隔離故障，給系統恢復留出時間，而不是讓故障蔓延，最終導致全盤崩潰。

常見的熔斷工具有 Hystrix 和 Sentinel，它們能有效地幫助我們實現熔斷和降級功能，保障系統的穩定性。很多閘道器也內建了熔斷功能，透過簡單配置，就可以讓系統在遭遇異常時迅速自我保護。未雨綢繆，提前做好這些防護措施，往往比事後補救更為有效。

超時與重試：別讓請求無限等待

合理設定超時時間是保障系統穩定性的重要手段，尤其是在資料庫查詢、RPC 呼叫等操作中，都應該設定明確的超時策略，防止請求在網路不穩定或者服務異常時一直掛起，導致系統資源被佔滿，影響其他請求的處理。

重試機制也是必要的，它能在請求失敗時自動重試，增加系統的容錯性。但重試機制必須與冪等性結合使用，否則一旦發生重試請求，可能會導致重複扣款、重複下單等災難性事故，給使用者和企業帶來巨大的麻煩。總之，小心駛得萬年船，做好重試和冪等性設計，才能最大程度地避免隱患。

隔離機制：別讓一個故障影響所有業務

隔離是防止故障蔓延的有效手段，其中最常見的做法就是執行緒池隔離。透過使用不同的執行緒池來處理不同的業務，可以有效避免某個業務的執行緒池被耗盡，從而影響到其他業務的正常執行。這種做法就像是把不同的活分配給不同的人，誰也不干擾誰，互不耽誤。

同樣，資料庫連線池也應該進行隔離。不同的業務使用不同的資料來源，避免某個業務佔滿了所有的資料庫連線池，導致其他業務無法正常訪問資料庫。正如 “雞蛋不能放在一個籃子裡”，一旦籃子破了，所有的雞蛋都得扔掉。透過資源隔離，不僅能提升系統的穩定性，還能減少單點故障對其他服務的影響。

監控與告警：早發現早解決

系統監控和日誌分析是保障系統穩定執行的第一道防線，所有關鍵指標（QPS、RT、錯誤率、CPU、記憶體）都應該實時監控，確保一旦出現異常能夠第一時間發現並告警。及時的告警能讓我們在問題蔓延之前採取措施，避免造成無法挽回的損失。

曾經遇到過一個案例，某個服務的錯誤率突然從 0.1% 飆升到 5%，但由於沒有設定及時的告警，問題一直沒有被察覺，結果讓故障蔓延了整整半個小時才被發現。那時候，損失已經無法估量，真是亡羊補牢，為時已晚。要知道，問題越早發現，修復的成本越低，影響也越小。所以，監控和告警機制一定不能掉以輕心，事前做好準備，才能真正做到防患於未然。

混沌工程：提前發現系統薄弱點

混沌工程是一種透過在生產環境中主動製造故障，提前發現和修復系統薄弱點的技術手段。它的核心思想是模擬各種可能的故障場景，驗證系統在面對不確定因素時的彈性和恢復能力。透過這種方式，我們可以在系統上線之前，發現潛在的問題並加以修復，從而避免在生產環境中發生災難性故障。

混沌工程的典型做法包括故意讓某個服務當機，觀察系統是否能夠自動恢復，或者透過製造高併發負載，測試系統在高壓下的承載能力。透過這些手段，我們不僅可以發現一些隱藏的瓶頸，還能檢查系統的容錯能力和自動恢復機制，確保系統能在出現故障時儘量保持正常執行，而不是全盤崩潰。

透過混沌工程，我們可以不斷最佳化系統架構，提升系統的穩定性和可靠性。提前發現和解決問題，是避免生產環境中大規模故障的有效途徑，也是保障使用者體驗和業務連續性的關鍵所在。

總結

線上故障最怕的就是 “星星之火，可以燎原”。一個看似不起眼的小錯誤，可能透過複雜的服務依賴鏈條不斷傳導，最終釀成全站級別的災難。因此，在系統設計和運維過程中，提前做好限流、熔斷、隔離、監控等防護措施是至關重要的，這些手段能有效避免故障擴散，提高系統的穩定性和容錯能力。

對於測試開發團隊來說，除了常規的功能測試和效能測試，我們還需要特別關注系統的容錯能力，模擬各種異常情況，提前識別潛在的故障風險。混沌工程和故障注入測試就是非常有效的手段，它們可以幫助我們主動發現系統的薄弱環節，確保系統在面對極端情況時仍然能夠保持正常執行，避免災難性故障的發生。

最後，預防故障永遠比解決故障更重要。畢竟，線上出現一次故障，不僅僅是金錢上的損失，更是對使用者信任的打擊。一旦信任崩塌，恢復起來將是困難重重。因此，防患於未然，提前做好充足的準備和應對策略，才能確保系統在風雨中穩如泰山，高枕無憂。

FunTester 原創精華

【連載】從 Java 開始效能測試

故障測試與 Web 前端

服務端功能測試

效能測試專題

Java、Groovy、Go

白盒、工具、爬蟲、UI 自動化

理論、感悟、影片

如果覺得我的文章對您有用，請隨意打賞。您的支援將鼓勵我繼續創作！

打賞支援

暫無回覆。

WMI 的攻擊，防禦與取證分析技術之防禦篇
2020-08-19
【技術向】OPC安全風險與防禦
2021-05-13
AccessibilityService分析與防禦
2019-03-04
CSRF 攻擊與防禦
2019-11-18
LDAP注入與防禦剖析
2020-08-19
LDA
WEB攻擊與防禦
2018-03-31
Web
CSRF攻擊與防禦
2024-11-01
CDN防禦與高防伺服器
2022-06-16
伺服器
應對CC攻擊的自動防禦系統——原理與實現
2020-08-19
資料庫防火牆的阻斷方式：行為阻斷或者Session阻斷
2018-08-02
資料庫防火牆Session
CSS keylogger：攻擊與防禦
2019-01-03
CSS
原始碼防洩密系統與程式相關性判斷
2022-02-24
原始碼
15-網路安全主動防禦技術與應用
2024-10-12
知物由學 | Android應用破解與防護，阻斷猖獗的應用亂象
2022-03-30
Android
淺談DDos攻擊與防禦
2018-06-23
建立ddos防禦體系的方法
2018-12-04
DDos防禦體系的構建
2018-08-30
防禦式程式設計之斷言assert的使用
2022-12-06
程式設計
AccessibilityService防禦
2019-01-04
DDoS 防禦
2018-03-10
讀構建可擴充套件分散式系統：方法與實踐03分散式系統要點
2024-09-14
套件分散式
Webscan360的防禦與繞過
2020-08-19
Web
前端的安全問題與防禦策略
2019-05-12
前端
在Linux中，什麼是入侵檢測系統（IDS）和入侵防禦系統（IPS）？
2024-05-14
Linux
WMI 的攻擊，防禦與取證分析技術之攻擊篇
2020-08-19
防禦DDoS原理搞明白，防禦效果才能事半功倍
2021-04-07
三分鐘帶你瞭解網路安全主動防禦與被動防禦!
2024-03-06
前端防禦XSS
2020-08-19
前端
生成樹欺騙攻擊與防禦策略
2023-09-28
一文帶你瞭解網路安全中的主動防禦與被動防禦!
2023-10-16
網路防禦系統中WAF的主要功能是什麼？
2019-06-06
DiT：Transformers 與擴散模型強強聯手
2023-01-16
ORM模型
CSS 樣式防禦
2018-08-26
CSS
DDoS 攻擊與防禦：從原理到實踐
2024-05-16
一次SGA與Swap故障診斷
2021-06-17
讀構建可擴充套件分散式系統：方法與實踐05分散式快取
2024-09-16
套件分散式快取
堅決守牢並不斷擴大防控成果
2022-05-26
運維和IT技術需知的DDOS攻擊防禦整理
2019-05-10
運維