failover機制的小討論

大熊先生|網際網路後端技術發表於2013-07-14

　　對於一個7*24小時無間斷的線上服務來說，在服役時間內難免會遇到一些fail，例如db斷開連線且短暫連線不上了, 下游的某個節點忽然掛了，運維部署上依賴的某一個東西不存在了等等場景。本文主要來討論一下這些場景使用怎樣的策略會比較好。

　　最簡單的方法，While(true) + sleep(固定時間) 不斷的重試，直到成功為止。這個方法的優點就是簡單,可依賴。缺點就是對於感知延遲要求比較嚴格的程式，會消耗大量的CPU，甚至因為一些不合理的邏輯導致CPU滿載等等情況發生.這種簡單粗暴的方法應用廣泛，並且能解決實際問題，在很多場合還是非常可取. 我們暫且叫這種策略為”粗暴法”.

　　我曾經在一個實時檔案抓取程式中（類似於scribe這樣的實時日誌傳輸方案），使用了這樣的策略，當fstat原始檔發現檔案不存在的時候，我會重試1000次，每次間隔sleep 10ms, 其間程式會輸出很多warnning資訊來支援一些報警等，重試完1000次之後（10s之後），將sleep間隔設定為固定時間，例如1s,在降低程式對CPU的消耗的同時，保證了一定的實時性，原始檔無論什麼時候出現都能夠確保在1s內cover進來，而且這樣的策略對於日誌切分場景也非常實用,普通的日誌切分（如切分nginx為每小時一個檔案,crontab每小時mv access.log access.log.$date再 kill -USR1等）程式能夠立馬感知到並作出相應的策略調整。我們暫且叫這種策略為”重試N次後，將間隔時間調整為最大的可接受值”.

　　再看看另外一種方法，最近看了下facebook scribe的原始碼（感興趣的自己google,大家可以姑且的認為是一個多下游的日誌轉發工具）,他在下游死掉了之後選擇對sleep時間循序漸進的策略，每次將retryInterval *1.414; (sqrt(2)),再加上一個範圍隨機數（如1-100ms）,同時來設定了一個最大值的方式來相對動態的判斷下游狀態. 為什麼一定要設定最大值呢？因為這個策略在異常時間久了之後，滯後性會非常大，當一場恢復時，可能不能及時感知，所以需要一個最大值做保證。我們暫且叫這種策略為“重試時間循序漸進, 且確保不大於最大可接受值“.

　　近兩年來使用zookeeper（以下簡稱zk）的公司越來越多,很多公司都用zk來做大型分散式系統的協調，他的模式類似於：下游通過在zk上註冊一個臨時節點，告訴大家，我活著呢, 上游通過watch這個節點的變化來感知下游的變化。模式很簡單，但是大家都是用zk是因為他提供了很多額外的東西，例如下游註冊的臨時節點在下游當機，或者網路不可達（反正就是掛了）等等情況下會自動清除，並且通過回撥函式實時讓上游程式感知，作出相應變化，當下遊活了之後，又註冊一個臨時節點宣稱自己活了，上游程式也能通過回撥函式實時感知。上游程式依賴zookeeper的一個Lib庫。對於上游程式來說，他是一個觀察者，套進設計模式就是觀察者模式，好萊塢有句名言. “不要給我打電話，我會給你打電話”.我們暫且叫這種策略為“被動實時感知下游變化”。

　　先寫到這裡（也只想到了這些），後續有所想法再補充吧，也歡迎各位看官留言，過去的博文都長篇大論，以後儘量做到簡約不簡單吧。畢竟時間精力有限。

Jive與Ofbiz的Cache機制比較請大家討論
2003-10-31
Sql Server深入的探討鎖機制
2021-09-09
SQLServer
專案需求討論 – 定位功能小結
2019-03-03
專案需求討論 - 定位功能小結
2018-07-16
SetUnhandledExceptionFilter 的討論
2015-11-15
ExceptionFilter
專案需求討論 — 待機介面
2017-12-29
專案需求討論— ButterKnife初級小結
2019-03-01
SQL Server之旅（14）：深入的探討鎖機制
2015-03-21
SQLServer
虛擬機器與偵錯程式的討論
2015-11-15
虛擬機
[iOS Monkey 討論帖] 整套新的 fastmonkey 討論
2021-01-08
iOSAST
[技術討論]關於低耦合開發的討論
2012-11-09
我們現在沒有討論的但有必要討論的模式
2005-12-02
模式
《Linux核心修煉之道》精華分享與討論（10）——模組機制與“Hello World!”薦
2010-03-17
Linux
請教:jive論壇的同步機制
2005-05-31
探討代理模式與Java反射機制的應用
2010-04-01
模式Java反射
都討論大廠面試，當我小廠面試請喝茶的？
2022-02-16
面試
js中分號的討論
2018-12-04
JS
《NewSQL與NoSQL的討論》
2014-02-23
SQL
微信小程式更新機制
2023-02-19
微信小程式
小程式技術科普：執行機制&安全機制
2023-01-09
【轉】關於oracle中Move機制的一點探討
2012-06-20
Oracle
基於DirectDraw的Gamma calibrator機制之探討 (轉)
2007-12-09
GAM
小程式巔峰未至，你們就在討論它的終點了？
2018-05-17
微信小程式的require機制淺析
2016-11-24
微信小程式UI
【討論】論 cursor 在測試中的使用
2024-09-19
遊戲機制設計方法論
2020-11-18
遊戲
關於UI的一次討論——來自專案管理群的討論
2011-01-25
UI專案管理
討論JDK的File.equal()
2015-12-15
JDK
關於oracle SCN 的討論
2010-06-09
Oracle
Sql Server之旅——第十四站深入的探討鎖機制
2015-02-14
SQLServer
深入探討微服務架構中的同步通訊機制
2024-08-09
微服務架構
討論：大家來討論一些連線涉及到的引數
2007-06-25
理解Django 中Call Stack 機制的小Demo
2020-08-31
Django
關於部落格評論外掛的討論
2018-02-11
集團企業經營機制變革研討
2010-01-12
[技術討論]多使用者（多公司）的資料庫設計討論
2011-01-05
資料庫
[技術討論]遊戲AI設計與機器智慧
2010-03-31
遊戲AI
[譯] 討論 JS ⚡：文件
2019-01-17
JS

failover機制的小討論

相關文章