應對介面級的故障

_sanjun發表於2019-04-17

原文網址 : https://juejin.im/post/5cb6b410e51d456e2809fb89

注：文章來源：極客時間的專欄《從0開始學架構》

導致介面級故障的原因

內部原因

程式bug導致死迴圈
某個介面導致資料庫慢查詢
程式邏輯不完善導致耗盡記憶體等

外部原因

黑客攻擊、促銷或者搶購引入了超出平時幾倍甚至幾十倍的使用者
第三方系統大量請求
第三方系統響應緩慢等

解決介面故障的核心思想

優先保證核心業務和優先保證絕大部分使用者
丟車保帥，優先保證核心業務

降級

降級指系統將某些業務或者介面的功能降低，可以是隻提供部分功能，也可以是完全停掉所有功能

案例

雙11，訂單暫時提供修改收貨地址
論壇，降級為只能看帖子，不能發帖子
App的日誌上傳介面，可以完全停掉一段時間，這段時間內APP都不能上傳日誌

常見的實現降級的方式有：

系統後門降級

例如，系統提供一個降級URL，當訪問這個URL時，就相當於執行降級指令，具體的降級指令通過URL的引數傳入即可

缺點：安全隱患，伺服器數量多，需要一臺一臺去操作

獨立降級系統

將降級操作獨立到一個單獨的系統中，可以實現複雜的許可權管理、批量操作等功能。其基本架構如下：

應對介面級的故障

熔斷

降級的目的是應對系統自身的故障，而熔斷的目的是應對依賴的外部系統故障的情況

案例

A服務的X功能依賴B服務的某個介面，當B服務的介面響應很慢的時候，A服務的X功能響應肯定被拖慢，進一步導致A服務的執行緒都被卡在X功能處理上，此時A服務的其他功能都會被卡住或者響應非常慢
加入熔斷機制後，A服務不再請求B服務這個介面，A服務內部只要發現是請求B服務的這個介面就立即返回錯誤，從而避免A服務整個被拖慢甚至拖死

實現

關鍵是需要有一個統一的API呼叫層，由API呼叫層來進行取樣或者統計，如果介面呼叫散落在程式碼各處就沒法進行統一處理了
另一個關鍵是閾值的設計，例如1分鐘內30%的請求響應時間超過1秒就熔斷，這個策略的“1分鐘”“30%”“1秒”都對最終的熔斷效果有影響
實踐中一般都是先根據分析再確定閾值，然後上線觀察效果，再進行調優

限流

降級是從系統功能優先順序的角度考慮如何應對故障，而限流則是從使用者訪問壓力的角度來考慮如何應對故障
限流指只允許系統能夠承受的流量進來，超出系統訪問能力的請求將被丟棄

常見的限流方式

基於請求限流
基於資源限流

相關文章

如何應對線上故障？
2018-08-28
想問問有公司做介面級別的故障演練嗎？
2024-07-01
如何應對伺服器硬碟故障
2022-11-23
伺服器硬碟
【故障補牢】貪吃的 Bing 爬蟲，限量供應的應對措施
2023-05-09
爬蟲
介面供應商提供的AG介面BB IN介面對接文件demo教程
2022-05-08
後端人員如何應對線上故障
2019-02-28
後端
如何應對Akka叢集出現腦裂故障？- Andrzej
2020-05-27
app安全：如何應對介面劫持、介面劫持如何檢測
2020-12-01
APP
記IPSec VPN對接故障的排查
2019-12-25
【故障公告】部落格系統升級到 .NET 5.0 引發的故障
2020-10-15
應用故障排查
2020-12-24
Firefox的降級與驅動對應關係
2020-10-06
Firefox
液晶屏故障現象和對應維修思路總結
2024-11-06
工業網路交換機電源故障及應對策略
2023-02-07
光纖收發器常見故障及對應解決方法
2023-02-20
AWS RDS強制升級的應對之道——版本升級的最佳實踐
2019-05-05
故障應急白皮書
2024-10-11
Polly-故障處理和彈性應對很有一手
2021-04-19
strict weak ordering導致公司級故障
2022-01-06
分散式系統中，級聯故障是最可怕的
2022-11-22
分散式
如何應對硬碟無法識別通電異響等那些七七八八的物理故障
2019-08-14
硬碟
配電網開啟全新智慧模式自動化系統對故障實現分秒級自愈
2020-11-28
模式
掌握 API 介面，讓車輛故障資訊無處遁形的訣竅
2024-12-04
API
DRF對Django請求響應做了技術升級
2020-12-18
Django
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 3
2019-08-26
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 6
2019-08-27
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 5
2019-08-27
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 4
2019-08-26
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 2
2019-08-25
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 1
2019-08-24
模式
介面文件解決方案！企業級的介面文件管理平臺！
2024-08-19
Node 入門級別的介面（青銅）
2019-03-29
絕對值碼盤介面卡的廣泛應用與創新實踐
2024-07-23
SAP PM 初級系列15 - IW33事務程式碼介面裡檢視維修工單對應的維修通知單的幾個方法
2021-06-17
PHP hash 介面對接
2019-02-16
PHP
Envoy服務網格如何減輕級聯故障？
2018-10-23
阿里如何做到百萬量級硬體故障自愈？
2018-11-30
阿里
SpringBoot介面 - API介面有哪些不安全的因素？如何對介面進行簽名？
2022-07-18
Spring BootAPI