精講Redis服務架構分析與搭建

IT技術精選文摘發表於2018-06-17

原文網址 : https://blog.csdn.net/gv7lzb0y87u7c/article/details/80729803

640?wx_fmt=gif

基於記憶體的Redis應該是目前各種web開發業務中最為常用的key-value資料庫了，我們經常在業務中用其儲存使用者登陸態（Session儲存），加速一些熱資料的查詢（相比較mysql而言，速度有數量級的提升），做簡單的訊息佇列（LPUSH和BRPOP）、訂閱釋出（PUB/SUB）系統等等。規模比較大的網際網路公司，一般都會有專門的團隊，將Redis儲存以基礎服務的形式提供給各個業務呼叫。

不過任何一個基礎服務的提供方，都會被呼叫方問起的一個問題是：你的服務是否具有高可用性？最好不要因為你的服務經常出問題，導致我這邊的業務跟著遭殃。最近我所在的專案中也自己搭了一套小型的“高可用”Redis服務，在此做一下自己的總結和思考。

首先我們要定義一下對於Redis服務來說怎樣才算是高可用，即在各種出現異常的情況下，依然可以正常提供服務。或者寬鬆一些，出現異常的情況下，只經過很短暫的時間即可恢復正常服務。所謂異常，應該至少包含了以下幾種可能性：

【異常1】某個節點伺服器的某個程式突然down掉（例如某開發手殘，把一臺伺服器的redis-server程式kill了）

【異常2】某臺節點伺服器down掉，相當於這個節點上所有程式都停了（例如某運維手殘，把一個伺服器的電源拔了；例如一些老舊機器出現硬體故障）

【異常3】任意兩個節點伺服器之間的通訊中斷了（例如某臨時工手殘，把用於兩個機房通訊的光纜挖斷了）

其實以上任意一種異常都是小概率事件，而做到高可用性的基本指導思想就是：多個小概率事件同時發生的概率可以忽略不計。只要我們設計的系統可以容忍短時間內的單點故障，即可實現高可用性。

對於搭建高可用Redis服務，網上已有了很多方案，例如Keepalived，Codis，Twemproxy，Redis Sentinel。其中Codis和Twemproxy主要是用於大規模的Redis叢集中，也是在Redis官方釋出Redis Sentinel之前twitter和豌豆莢提供的開源解決方案。我的業務中資料量並不大，所以搞叢集服務反而是浪費機器了。最終在Keepalived和Redis Sentinel之間做了個選擇，選擇了官方的解決方案Redis Sentinel。

Redis Sentinel可以理解為一個監控Redis Server服務是否正常的程式，並且一旦檢測到不正常，可以自動地將備份（slave）Redis Server啟用，使得外部使用者對Redis服務內部出現的異常無感知。我們按照由簡至繁的步驟，搭建一個最小型的高可用的Redis服務。

方案1：單機版Redis Server，無Sentinel

640?wx_fmt=png

一般情況下，我們搭的個人網站，或者平時做開發時，會起一個單例項的Redis Server。呼叫方直接連線Redis服務即可，甚至Client和Redis本身就處於同一臺伺服器上。這種搭配僅適合個人學習娛樂，畢竟這種配置總會有單點故障的問題無法解決。一旦Redis服務程式掛了，或者伺服器1停機了，那麼服務就不可用了。並且如果沒有配置Redis資料持久化的話，Redis內部已經儲存的資料也會丟失。

方案2：主從同步Redis Server，單例項Sentinel

640?wx_fmt=png

為了實現高可用，解決方案1中所述的單點故障問題，我們必須增加一個備份服務，即在兩臺伺服器上分別各啟動一個Redis Server程式，一般情況下由master提供服務，slave只負責同步和備份。與此同時，在額外啟動一個Sentinel程式，監控兩個Redis Server例項的可用性，以便在master掛掉的時候，及時把slave提升到master的角色繼續提供服務，這樣就實現了Redis Server的高可用。這基於一個高可用服務設計的依據，即單點故障本身就是個小概率事件，而多個單點同時故障（即master和slave同時掛掉），可以認為是（基本）不可能發生的事件。

對於Redis服務的呼叫方來說，現在要連線的是Redis Sentinel服務，而不是Redis Server了。常見的呼叫過程是，client先連線Redis Sentinel並詢問目前Redis Server中哪個服務是master，哪些是slave，然後再去連線相應的Redis Server進行操作。當然目前的第三方庫一般都已經實現了這一呼叫過程，不再需要我們手動去實現（例如Nodejs的ioredis，PHP的predis，Golang的go-redis/redis，JAVA的jedis等）。

然而，我們實現了Redis Server服務的主從切換之後，又引入了一個新的問題，即Redis Sentinel本身也是個單點服務，一旦Sentinel程式掛了，那麼客戶端就沒辦法連結Sentinel了。所以說，方案2的配置並無法實現高可用性。

方案3：主從同步Redis Server，雙例項Sentinel

640?wx_fmt=png

為了解決方案2的問題，我們把Redis Sentinel程式也額外啟動一份，兩個Sentinel程式同時為客戶端提供服務發現的功能。對於客戶端來說，它可以連線任何一個Redis Sentinel服務，來獲取當前Redis Server例項的基本資訊。通常情況下，我們會在Client端配置多個Redis Sentinel的連結地址，Client一旦發現某個地址連線不上，會去試圖連線其他的Sentinel例項，這當然也不需要我們手動實現，各個開發語言中比較熱門的redis連線庫都幫我們實現了這個功能。我們預期是：即使其中一個Redis Sentinel掛掉了，還有另外一個Sentinel可以提供服務。

然而，願景是美好的，現實卻是很殘酷的。如此架構下，依然無法實現Redis服務的高可用。方案3示意圖中，紅線部分是兩臺伺服器之間的通訊，而我們所設想的異常場景（【異常2】）是，某臺伺服器整體down機，不妨假設伺服器1停機，此時，只剩下伺服器2上面的Redis Sentinel和slave Redis Server程式。這時，Sentinel其實是不會將僅剩的slave切換成master繼續服務的，也就導致Redis服務不可用，因為Redis的設定是隻有當超過50%的Sentinel程式可以連通並投票選取新的master時，才會真正發生主從切換。本例中兩個Sentinel只有一個可以連通，等於50%並不在可以主從切換的場景中。

你可能會問，為什麼Redis要有這個50%的設定？假設我們允許小於等於50%的Sentinel連通的場景下也可以進行主從切換。試想一下【異常3】，即伺服器1和伺服器2之間的網路中斷，但是伺服器本身是可以執行的。如下圖所示：

640?wx_fmt=png

實際上對於伺服器2來說，伺服器1直接down掉和伺服器1網路連不通是一樣的效果，反正都是突然就無法進行任何通訊了。假設網路中斷時我們允許伺服器2的Sentinel把slave切換為master，結果就是你現在擁有了兩個可以對外提供服務的Redis Server。Client做任何的增刪改操作，有可能落在伺服器1的Redis上，也有可能落在伺服器2的Redis上（取決於Client到底連通的是哪個Sentinel），造成資料混亂。即使後面伺服器1和伺服器2之間的網路又恢復了，那我們也無法把資料統一了（兩份不一樣的資料，到底該信任誰呢？），資料一致性完全被破壞。

方案4：主從同步Redis Server，三例項Sentinel

640?wx_fmt=png

鑑於方案3並沒有辦法做到高可用，我們最終的版本就是上圖所示的方案4了。實際上這就是我們最終搭建的架構。我們引入了伺服器3，並且在3上面又搭建起一個Redis Sentinel程式，現在由三個Sentinel程式來管理兩個Redis Server例項。這種場景下，不管是單一程式故障、還是單個機器故障、還是某兩個機器網路通訊故障，都可以繼續對外提供Redis服務。

實際上，如果你的機器比較空閒，當然也可以把伺服器3上面也開啟一個Redis Server，形成1 master + 2 slave的架構，每個資料都有兩個備份，可用性會提升一些。當然也並不是slave越多越好，畢竟主從同步也是需要時間成本的。

在方案4中，一旦伺服器1和其他伺服器的通訊完全中斷，那麼伺服器2和3會將slave切換為master。對於客戶端來說，在這麼一瞬間會有2個master提供服務，並且一旦網路恢復了，那麼所有在中斷期間落在伺服器1上的新資料都會丟失。如果想要部分解決這個問題，可以配置Redis Server程式，讓其在檢測到自己網路有問題的時候，立即停止服務，避免在網路故障期間還有新資料進來（可以參考Redis的min-slaves-to-write和min-slaves-max-lag這兩個配置項）。

至此，我們就用3臺機器搭建了一個高可用的Redis服務。其實網上還有更加節省機器的辦法，就是把一個Sentinel程式放在Client機器上，而不是服務提供方的機器上。只不過在公司裡面，一般服務的提供方和呼叫方並不來自同一個團隊。兩個團隊共同操作同一個機器，很容易因為溝通問題導致一些誤操作，所以出於這種人為因素的考慮，我們還是採用了方案4的架構。並且由於伺服器3上面只跑了一個Sentinel程式，對伺服器資源消耗並不多，還可以用伺服器3來跑一些其他的服務。

易用性：像使用單機版Redis一樣使用Redis Sentinel

作為服務的提供方，我們總是會講到使用者體驗問題。在上述方案當中始終有一個讓Client端用的不是那麼舒服的地方。對於單機版Redis，Client端直接連線Redis Server，我們只需要給一個ip和port，Client就可以使用我們的服務了。而改造成Sentinel模式之後，Client不得不採用一些支援Sentinel模式的外部依賴包，並且還要修改自己的Redis連線配置，這對於“矯情”的使用者來講顯然是不能接收的。有沒有辦法還是像在使用單機版的Redis那樣，只給Client一個固定的ip和port就可以提供服務呢？

640?wx_fmt=png

答案當然是肯定的。這可能就要引入虛擬IP（Virtual IP，VIP），如上圖所示。我們可以把虛擬IP指向Redis Server master所在的伺服器，在發生Redis主從切換的時候，會觸發一個回撥指令碼，回撥指令碼中將VIP切換至slave所在的伺服器。這樣對於Client端來說，他彷彿在使用的依然是一個單機版的高可用Redis服務。

結語

搭建任何一個服務，做到“能用”其實是非常簡單的，就像我們執行一個單機版的Redis。不過一旦要做到“高可用”，事情就會變得複雜起來。業務中使用了額外的兩臺伺服器，3個Sentinel程式+1個Slave程式，只是為了保證在那小概率的事故中依然做到服務可用。在實際業務中我們還啟用了supervisor做程式監控，一旦程式意外退出，會自動嘗試重新啟動。

公眾號推薦:

640?wx_fmt=jpeg

楊列昂：騰訊移動分析與服務架構
2018-06-01
架構
Spring Cloud雲服務架構 - commonservice-config配置服務搭建
2018-09-12
SpringCloud架構
如何用3臺機器輕鬆搭建一個高可用Redis服務架構？
2018-05-02
Redis架構
Spring Cloud雲架構 - commonservice-sso服務搭建
2018-09-10
SpringCloud架構
微服務架構 | *3.5 Nacos 服務註冊與發現的原始碼分析
2022-01-19
微服務架構原始碼
(九)整合spring cloud雲服務架構 - commonservice-config配置服務搭建
2020-10-27
SpringCloud架構
微服務架構中的服務邊界與服務識別
2018-08-23
微服務架構
mPaaS 服務端核心元件：移動分析服務 MAS 架構解析
2019-03-07
服務端元件架構
單體架構&微服務架構&中臺服務架構
2018-09-06
架構微服務
Spring Cloud雲架構 - commonservice-sso服務搭建（一）
2019-03-19
SpringCloud架構
ORTC與SIP融合通訊服務架構
2022-01-14
架構
精講Redis：持久化
2018-06-21
Redis持久化
微服務架構學習與思考(05)：微服務架構適用場景分析
2020-10-02
微服務架構
面向服務的架構
2022-05-27
架構
服務架構學習與思考(12)：從單體架構到微服務架構的演進歷程
2023-01-25
架構微服務
微服務架構—服務降級
2018-07-31
微服務架構
(十五) 整合spring cloud雲架構 - commonservice-sso服務搭建（一）
2019-04-03
SpringCloud架構
微服務架構 | 3. 註冊中心與服務發現
2022-01-14
微服務架構
redis服務環境下mysql如何實現lnmp架構快取
2021-06-28
RedisMySqlLNMP架構快取
幽默：服務架構的兩難與矛盾之處
2019-06-11
架構
億級流量架構之服務限流思路與方法
2021-02-20
架構
（十五）spring cloud微服務分散式雲架構-commonservice-config配置服務搭建
2019-03-13
SpringCloud微服務分散式架構
微服務架構之「服務註冊」
2019-04-08
微服務架構
Go遊戲服務端框架從零搭建（一）— 架構設計
2021-04-15
Go遊戲服務端框架架構
（六）整合spring cloud雲服務架構 - 企業雲架構common-service程式碼結構分析
2018-11-23
SpringCloud架構
微服務架構 | 4.2 基於 Feign 與 OpenFeign 的服務介面呼叫
2022-01-27
微服務架構
精盡 MyBatis 原始碼分析 - 整體架構
2020-11-22
MyBatis原始碼架構
精講Redis記憶體模型
2018-06-19
Redis記憶體模型
SpringCloud構建微服務架構-Hystrix服務降級
2021-09-09
SpringGCCloud微服務架構
vivo 服務端監控架構設計與實踐
2022-02-21
服務端架構
億級流量架構之服務降級思路與方法
2021-02-21
架構
SaaS業務架構：業務能力分析
2024-09-22
架構
微服務分散式架構之redis篇
2020-10-04
微服務分散式架構Redis
Spring Cloud雲服務架構 - 企業分散式微服務雲架構構建
2018-03-05
SpringCloud架構分散式微服務
微服務與架構師
2021-11-02
微服務架構
用 Hystrix 構建高可用服務架構
2019-07-18
架構
Spring Cloud雲服務架構 - 雲架構程式碼結構構建
2018-03-05
SpringCloud架構
架構設計之“服務限流”
2018-08-27
架構

精講Redis服務架構分析與搭建

相關文章