大型分散式網站架構:快取在分散式系統中的應用

爛豬皮發表於2019-03-04

快取是分散式系統中的重要元件,主要解決高併發,大資料場景下,熱點資料訪問的效能問題。提供高效能的資料快速訪問。

一、快取概述

快取是分散式系統中的重要元件,主要解決高併發,大資料場景下,熱點資料訪問的效能問題。提供高效能的資料快速訪問。

1.1快取的原理

(1) 將資料寫入/讀取速度更快的儲存(裝置);

(2) 將資料快取到離應用最近的位置;

(3) 將資料快取到離使用者最近的位置。

1.2快取分類

在分散式系統中,快取的應用非常廣泛,從部署角度有以下幾個方面的快取應用。

(1) CDN快取;

(2) 反向代理快取;

(3) 分散式Cache;

(4) 本地應用快取;

1.3快取媒介

常用中介軟體:Varnish,Ngnix,Squid,Memcache,Redis,Ehcache等;

快取的內容:檔案,資料,物件;

快取的介質:CPU,記憶體(本地,分散式),磁碟(本地,分散式)

1.3快取設計

快取設計需要解決以下幾個問題:

(1) 快取什麼?

哪些資料需要快取:1.熱點資料;2.靜態資源;

(2) 快取的位置?

CDN,反向代理,分散式快取伺服器,本機(記憶體,硬碟)

(3) 如何快取的問題?

  • 過期策略

1.固定時間:比如指定快取的時間是30分鐘;

2.相對時間:比如最近10分鐘內沒有訪問的資料;

  • 同步機制
  1. 實時寫入;(推)
  2. 非同步重新整理;(推拉)

二、CDN快取

CDN主要解決將資料快取到離使用者最近的位置,一般快取靜態資原始檔(頁面,指令碼,圖片,視訊,檔案等)。國內網路異常複雜,跨運營商的網路訪問會很慢。為了解決跨運營商或各地使用者訪問問題,可以在重要的城市,部署CDN應用。使使用者就近獲取所需內容,降低網路擁塞,提高使用者訪問響應速度和命中率。

2.1CND原理

CDN的基本原理是廣泛採用各種快取伺服器,將這些快取伺服器分佈到使用者訪問相對集中的地區或網路中,在使用者訪問網站時,利用全域性負載技術將使用者的訪問指向距離最近的工作正常的快取伺服器上,由快取伺服器直接響應使用者請求。

(1) 未部署CDN應用前

網路請求路徑:

請求:本機網路(區域網)——》運營商網路——》應用伺服器機房

響應:應用伺服器機房——》運營商網路——》本機網路(區域網)

在不考慮複雜網路的情況下,從請求到響應需要經過3個節點,6個步驟完成一次使用者訪問操作。

(2) 部署CDN應用後


網路路徑:

請求:本機網路(區域網)——》運營商網路

響應:運營商網路——》本機網路(區域網)

在不考慮複雜網路的情況下,從請求到響應需要經過2個節點,2個步驟完成一次使用者訪問操作。

與不部署CDN服務相比,減少了1個節點,4個步驟的訪問。極大的提高的系統的響應速度。

2.2 CDN優缺點

(1)優點(摘自百度百科)

1、本地Cache加速:提升訪問速度,尤其含有大量圖片和靜態頁面站點;

2、映象服務:消除了不同運營商之間互聯的瓶頸造成的影響,實現了跨運營商的網路加速,保證不同網路中的使用者都能得到良好的訪問質量;

3、遠端加速:遠端訪問使用者根據DNS負載均衡技術智慧自動選擇Cache伺服器,選擇最快的Cache伺服器,加快遠端訪問的速度;

4、頻寬優化:自動生成伺服器的遠端Mirror(映象)cache伺服器,遠端使用者訪問時從cache伺服器上讀取資料,減少遠端訪問的頻寬、分擔網路流量、減輕原站點WEB伺服器負載等功能。

5、叢集抗攻擊:廣泛分佈的CDN節點加上節點之間的智慧冗餘機制,可以有效地預防黑客入侵以及降低各種D.D.o.S攻擊對網站的影響,同時保證較好的服務質量。

(2)缺點

1.動態資源快取,需要注意實時性;

解決:主要快取靜態資源,動態資源建立多級快取或準實時同步;

2.如何保證資料的一致性和實時性需要權衡考慮;

解決:

  1. 設定快取失效時間(1個小時,最終一致性);
  2. 資料版本號;

2.3CND架構參考

摘自《雲宙視訊CDN系統》

2.4 CND技術實踐

目前,中小型網際網路公司,綜合成本考慮,一般租用第三方CDN服務,大型網際網路公司,採用自建或第三方結合的方式。比如淘寶剛開始使用第三方的,當流量很大後,第三方公司無法支撐其CDN流量,淘寶最後採用自建CDN的方式實現。

淘寶CDN,如下圖(來自網路):

三、反向代理快取

反向代理是指在網站伺服器機房部署代理伺服器,實現負載均衡,資料快取,安全控制等功能。

3.1快取原理

反向代理位於應用伺服器機房,處理所有對WEB伺服器的請求。如果使用者請求的頁面在代理伺服器上有緩衝的話,代理伺服器直接將緩衝內容傳送給使用者。如果沒有緩衝則先向WEB伺服器發出請求,取回資料,本地快取後再傳送給使用者。通過降低向WEB伺服器的請求數,從而降低了WEB伺服器的負載。

反向代理一般快取靜態資源,動態資源轉發到應用伺服器處理。常用的快取應用伺服器有Varnish,Ngnix,Squid。

3.2 Squid示例

Squid 反向代理一般只快取靜態資源,動態程式預設不快取。根據從 WEB 伺服器返回的 HTTP 頭標記來緩衝靜態頁面。有四個最重要 HTTP 頭標記:

Last-Modified: 告訴反向代理頁面什麼時間被修改

Expires: 告訴反向代理頁面什麼時間應該從緩衝區中刪除

Cache-Control: 告訴反向代理頁面是否應該被緩衝

Pragma: 用來包含實現特定的指令,最常用的是 Pragma:no-cache

Squid 反向代理加速網站例項

(1) 通過DNS的輪詢技術,將客戶端的請求分發給其中一臺 Squid 反向代理伺服器處理;

(2) 如果這臺 Squid 快取了使用者的請求資源,則將請求的資源直接返回給使用者;

(3) 否則這臺 Squid 將沒有快取的請求根據配置的規則傳送給鄰居 Squid 和後臺的 WEB 伺服器處理;

(4) 這樣既減輕後臺 WEB 伺服器的負載,又提高整個網站的效能和安全性。

3.2 代理快取比較

常用的代理快取有Varnish,Squid,Ngnix,簡單比較如下:

(1) varnish和squid是專業的cache服務,nginx需要第三方模組支援;

(2) Varnish採用記憶體型快取,避免了頻繁在記憶體、磁碟中交換檔案,效能比Squid高;

(3) Varnish由於是記憶體cache,所以對小檔案如css,js,小圖片啥的支援很棒,後端的持久化快取可以採用的是Squid或ATS;

(4) Squid功能全而大,適合於各種靜態的檔案快取,一般會在前端掛一個HAProxy或nginx做負載均衡跑多個例項;

(5) Nginx採用第三方模組ncache做的緩衝,效能基本達到varnish,一般作為反向代理使用,可以實現簡單的快取。

在此我向大家推薦一個架構學習交流群。交流學習群號:575745314 裡面會分享一些資深架構師錄製的視訊錄影:有Spring,MyBatis,Netty原始碼分析,高併發、高效能、分散式、微服務架構的原理,JVM效能優化、分散式架構等這些成為架構師必備的知識體系。還能領取免費的學習資源,目前受益良多

四、分散式快取

CDN,反向代理快取,主要解決靜態檔案,或使用者請求資源的快取,資料來源一般為靜態檔案或動態生成的檔案(有快取頭標識)。

分散式快取,主要指快取使用者經常訪問資料的快取,資料來源為資料庫。一般起到熱點資料訪問和減輕資料庫壓力的作用。

目前分散式快取設計,在大型網站架構中是必備的架構要素。常用的中介軟體有Memcache,Redis。

4.1Memcache

Memcache是一個高效能,分散式記憶體物件快取系統,通過在記憶體裡維護一個統一的巨大的hash表,它能夠用來儲存各種格式的資料,包括影像、視訊、檔案以及資料庫檢索的結果等。簡單的說就是將資料呼叫到記憶體中,然後從記憶體中讀取,從而大大提高讀取速度。

Memcache特性:

(1)使用實體記憶體作為快取區,可獨立執行在伺服器上。每個程式最大2G,如果想快取更多的資料,可以開闢更多的memcache程式(不同埠)或者使用分散式memcache進行快取,將資料快取到不同的物理機或者虛擬機器上。

(2)使用key-value的方式來儲存資料,這是一種單索引的結構化資料組織形式,可使資料項查詢時間複雜度為O(1)。

(3)協議簡單:基於文字行的協議,直接通過telnet在memcached伺服器上可進行存取資料操作,簡單,方便多種快取參考此協議;

(4)基於libevent高效能通訊:Libevent是一套利用C開發的程式庫,它將BSD系統的kqueue,Linux系統的epoll等事件處理功能封裝成一個介面,與傳統的select相比,提高了效能。

(5)內建的記憶體管理方式:所有資料都儲存在記憶體中,存取資料比硬碟快,當記憶體滿後,通過LRU演算法自動刪除不使用的快取,但沒有考慮資料的容災問題,重啟服務,所有資料會丟失。

(6)分散式:各個memcached伺服器之間互不通訊,各自獨立存取資料,不共享任何資訊。伺服器並不具有分散式功能,分散式部署取決於memcache客戶端。

(7)快取策略:Memcached的快取策略是LRU(最近最少使用)到期失效策略。在memcached記憶體儲資料項時,可以指定它在快取的失效時間,預設為永久。當memcached伺服器用完分配的內時,失效的資料被首先替換,然後也是最近未使用的資料。在LRU中,memcached使用的是一種Lazy Expiration策略,自己不會監控存入的key/vlue對是否過期,而是在獲取key值時檢視記錄的時間戳,檢查key/value對空間是否過期,這樣可減輕伺服器的負載。

4.1.1Memcache工作原理

MemCache的工作流程如下:

(1) 先檢查客戶端的請求資料是否在memcached中,如有,直接把請求資料返回,不再對資料庫進行任何操作;

(2) 如果請求的資料不在memcached中,就去查資料庫,把從資料庫中獲取的資料返回給客戶端,同時把資料快取一份到memcached中(memcached客戶端不負責,需要程式實現);

(3) 每次更新資料庫的同時更新memcached中的資料,保證一致性;

(4) 當分配給memcached記憶體空間用完之後,會使用LRU(Least Recently Used,最近最少使用)策略加上到期失效策略,失效資料首先被替換,然後再替換掉最近未使用的資料。

4.1.2Memcache叢集

memcached 雖然稱為 “ 分散式 ” 快取伺服器,但伺服器端並沒有 “ 分散式 ” 功能。每個伺服器都是完全獨立和隔離的服務。 memcached 的分散式,是由客戶端程式實現的。

當向memcached叢集存入/取出key value時,memcached客戶端程式根據一定的演算法計算存入哪臺伺服器,然後再把key value值存到此伺服器中。

存取資料分二步走,第一步,選擇伺服器,第二步存取資料。

分散式演算法(Consistent Hashing):

選擇伺服器演算法有兩種,一種是根據餘數來計算分佈,另一種是根據雜湊演算法來計算分佈。
餘數演算法:
先求得鍵的整數雜湊值,再除以伺服器臺數,根據餘數確定存取伺服器。

優點:計算簡單,高效;

缺點:在memcached伺服器增加或減少時,幾乎所有的快取都會失效。
雜湊演算法:(一致性Hash)
先算出memcached伺服器的雜湊值,並將其分佈到0到2的32次方的圓上,然後用同樣的方法算出儲存資料的鍵的雜湊值並對映至圓上,最後從資料對映到的位置開始順時針查詢,將資料儲存到查詢到的第一個伺服器上,如果超過2的32次方,依然找不到伺服器,就將資料儲存到第一臺memcached伺服器上。

如果新增了一臺memcached伺服器,只在圓上增加伺服器的逆時針方向的第一臺伺服器上的鍵會受到影響。

一致性Hash演算法:解決了餘數演算法增加節點命中大幅額度降低的問題,理論上,插入一個實體節點,平均會影響到:虛擬節點數 /2 的節點資料的命中。

4.2Redis

Redis 是一個開源(BSD許可)的,基於記憶體的,多資料結構儲存系統。可以用作資料庫、快取和訊息中介軟體。 支援多種型別的資料結構,如 字串(strings), 雜湊(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 與範圍查詢, bitmaps, hyperloglogs 和 地理空間(geospatial) 索引半徑查詢。

內建了 複製(replication),LUA指令碼(Lua scripting), LRU驅動事件(LRU eviction),事務(transactions) 和不同級別的 磁碟持久化(persistence), 並通過 Redis哨兵(Sentinel)和自動分割槽(Cluster)提供高可用性(high availability)。

4.2.1Redis常用資料型別

1、String

  常用命令:set,get,decr,incr,mget 。

  應用場景:String是最常用的一種資料型別,與Memcache的key value儲存方式類似。

  實現方式:String在redis內部儲存預設就是一個字串,被redisObject所引用,當遇到incr,decr等操作時會轉成數值型進行計算,此時redisObject的encoding欄位為int。

2、Hash

  常用命令:hget,hset,hgetall 。

  應用場景:以儲存一個使用者資訊物件資料,為例:

  實現方式:

  Redis Hash對應的Value,內部實際就是一個HashMap,實際這裡會有2種不同實現。

(1) Hash的成員比較少時Redis為了節省記憶體會採用類似一維數 組的方式來緊湊儲存,而不會採用真正的HashMap結構,對應的value redisObject的encoding為zipmap;

(2) 當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。

  3、List

  常用命令:lpush,rpush,lpop,rpop,lrange。

  應用場景:

  Redis list的應用場景非常多,也是Redis最重要的資料結構之一,比如twitter的關注列表,粉絲列表等都可以用Redis的list結構來實現。

  實現方式:

  Redis list的實現為一個雙向連結串列,可以支援反向查詢和遍歷,方便操作。不過帶來了部分額外的記憶體開銷,Redis內部的很多實現,包括髮送緩衝佇列等也都是用的這個資料結構。

  4、Set

  常用命令:sadd,spop,smembers,sunion。

  應用場景:

   Redis set對外提供的功能與list類似是一個列表的功能,特殊之處在於set是可以自動排重的,當你需要儲存一個列表資料,又不希望出現重複資料時,set 是一個很好的選擇,並且set提供了判斷某個成員是否在一個set集合內的重要介面,這個也是list所不能提供的。

  實現方式:

  set 的內部實現是一個 value永遠為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合內的原因。

  5、Sorted set

  常用命令:zadd,zrange,zrem,zcard;

  使用場景:

   Redis sorted set的使用場景與set類似,區別是set不是自動有序的,而sorted set可以通過使用者額外提供一個優先順序(score)的引數來為成員排序,並且是插入有序的,即自動排序。當你需要一個有序的並且不重複的集合列表,可以選擇sorted set資料結構,比如twitter 的public timeline可以以發表時間作為score來儲存,這樣獲取時就是自動按時間排好序的。

  實現方式:

  Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證資料的儲存和有序,HashMap裡放的是成員到score的對映,而跳躍表裡存放的 是所有的成員,排序依據是HashMap裡存的score,使用跳躍表的結構可以獲得比較高的查詢效率,並且在實現上比較簡單。

4.2.2Redis叢集

(1)通過keepalived實現的高可用方案

切換流程:

1. 當Master掛了後,VIP漂移到Slave;Slave 上keepalived 通知redis 執行:slaveof no one ,開始提供業務

2. 當Master起來後,VIP 地址不變,Master的keepalived 通知redis 執行slaveof slave IP host ,開始作為從同步資料

3. 依次類推

主從同時Down機情況:

1. 非計劃性,不做考慮,一般也不會存在這種問題

2.、計劃性重啟,重啟之前通過運維手段SAVE DUMP 主庫資料;需要注意順序:

1. 關閉其中一臺機器上所有redis,是得master全部切到另外一臺機器(多例項部署,單機上既有主又有從的情況);並關閉機器

2. 依次dump主上redis服務

3. 關閉主

4. 啟動主,並等待資料load完畢

5. 啟動從

6.刪除DUMP 檔案(避免重啟載入慢)

(2)使用Twemproxy 實現叢集方案

由twitter開源的c版本proxy,同時支援memcached和redis,目前最新版本為:0.2.4,持續開發中;https://github.com/twitter/twemproxy .twitter用它主要減少前端與快取服務間網路連線數。

特點:快、輕量級、減少後端Cache Server連線數、易配置、支援ketama、modula、random、常用hash 分片演算法。

這裡使用keepalived實現高可用主備方案,解決proxy單點問題;

優點:

1. 對於客戶端而言,redis叢集是透明的,客戶端簡單,遍於動態擴容

2. Proxy為單點、處理一致性hash時,叢集節點可用性檢測不存在腦裂問題

3. 高效能,CPU密集型,而redis節點叢集多CPU資源冗餘,可部署在redis節點叢集上,不需要額外裝置

4.3Memcache與Redis的比較

(1)資料結構:Memcache只支援key value儲存方式,Redis支援更多的資料型別,比如Key value,hash,list,set,zset;

(2)多執行緒:Memcache支援多執行緒,redis支援單執行緒;CPU利用方面Memcache優於redis;

(3)持久化:Memcache不支援持久化,Redis支援持久化;

(4)記憶體利用率:memcache高,redis低(採用壓縮的情況下比memcache高);

(5)過期策略:memcache過期後,不刪除快取,會導致下次取資料資料的問題,Redis有專門執行緒,清除快取資料;

五、本地快取

本地快取是指應用內部的快取,標準的分散式系統,一般有多級快取構成。本地快取是離應用最近的快取,一般可以將資料快取到硬碟或記憶體。

3.1硬碟快取

將資料快取到硬碟到,讀取時從硬碟讀取。原理是直接讀取本機檔案,減少了網路傳輸消耗,比通過網路讀取資料庫速度更快。可以應用在對速度要求不是很高,但需要大量快取儲存的場景。

3.2 記憶體快取

直接將資料儲存到本機記憶體中,通過程式直接維護快取物件,是訪問速度最快的方式。

六、快取架構示例

職責劃分:

  • CDN:存放HTML,CSS,JS等靜態資源;
  • 反向代理:動靜分離,只快取使用者請求的靜態資源;
  • 分散式快取:快取資料庫中的熱點資料;
  • 本地快取:快取應用字典等常用資料;

請求過程:

(1) 瀏覽器向客戶端發起請求,如果CDN有快取則直接返回;

(2) 如果CDN無快取,則訪問反向代理伺服器;

(3) 如果反向代理伺服器有快取則直接返回;

(4) 如果反向代理伺服器無快取或動態請求,則訪問應用伺服器;

(5) 應用伺服器訪問本地快取;如果有快取,則返回代理伺服器,並快取資料;(動態請求不快取)

(6) 如果本地快取無資料,則讀取分散式快取;並返回應用伺服器;應用伺服器將資料快取到本地快取(部分);

(7) 如果分散式快取無資料,則應用程式讀取資料庫資料,並放入分散式快取;

在此我向大家推薦一個架構學習交流群。交流學習群號:575745314 裡面會分享一些資深架構師錄製的視訊錄影:有Spring,MyBatis,Netty原始碼分析,高併發、高效能、分散式、微服務架構的原理,JVM效能優化、分散式架構等這些成為架構師必備的知識體系。還能領取免費的學習資源,目前受益良多

七、資料一致性

快取是在資料持久化之前的一個節點,主要是將熱點資料放到離使用者最近或訪問速度更快的介質中,加快資料的訪問,減小響應時間。

因為快取屬於持久化資料的一個副本,因此不可避免的會出現資料不一致問題。導致髒讀或讀不到資料的情況。資料不一致,一般是因為網路不穩定或節點故障導致。根據資料的操作順序,主要有以下幾種情況。

2.1場景介紹

(1)先寫快取,再寫資料庫

如下圖:

假如快取寫成功,但寫資料庫失敗或響應延遲,則下次讀取(併發讀)快取時,就出現髒讀;

(2)先寫資料庫,再寫快取

如下圖:

假如寫資料庫成功,但寫快取失敗,則下次讀取(併發讀)快取時,則讀不到資料;

(3)快取非同步重新整理

指資料庫操作和寫快取不在一個操作步驟中,比如在分散式場景下,無法做到同時寫快取或需要非同步重新整理(補救措施)時候。

此種情況,主要考慮資料寫入和快取重新整理的時效性。比如多久內重新整理快取,不影響使用者對資料的訪問。

2.2解決方法

第一個場景:

這個寫快取的方式,本身就是錯誤的,需要改為先寫持久化介質,再寫快取的方式。

第二個場景:

(1)根據寫入快取的響應來進行判斷,如果快取寫入失敗,則回滾資料庫操作;此種方法增加了程式的複雜度,不建議採用;

(2)快取使用時,假如讀快取失敗,先讀資料庫,再回寫快取的方式實現。

第三個場景:

(1)首先確定,哪些資料適合此類場景;

(2)根據經驗值確定合理的資料不一致時間,使用者資料重新整理的時間間隔;

2.3 其他方法

(1)超時:設定合理的超時時間;

(2)重新整理:定時重新整理一定範圍內(根據時間,版本號)的資料;

以上是簡化資料讀寫場景,實際中會分為:

(1)快取與資料庫之間的一致性;

(2)多級快取之前的一致性;

(3)快取副本之前的一致性。

八、快取高可用

業界有兩種理論,第一套快取就是快取,臨時儲存資料的,不需要高可用。第二種快取逐步演化為重要的儲存介質,需要做高可用。

本人的看法是,快取是否高可用,需要根據實際的場景而定。臨界點是是否對後端的資料庫造成影響。

具體的決策依據需要根據,叢集的規模(資料,快取),成本(伺服器,運維),系統效能(併發量,吞吐量,響應時間)等方面綜合評價。

3.1解決方法

快取的高可用,一般通過分散式和複製實現。分散式實現資料的海量快取,複製實現快取資料節點的高可用。架構圖如下:

其中,分散式採用一致性Hash演算法,複製採用非同步複製。

3.2其他方法

(1)複製雙寫:快取節點的複製,由非同步改為雙寫,只有兩份都寫成功,才算成功。

(2)虛擬層:一致性Hash存在,假如其中一個HASH環不可用,資料會寫入臨近的環,當HASH可用時,資料又寫入正常的HASH環,會導致資料偏移問題。這種情況,可以考慮在HASH環前面加一個虛擬層實現。

(3)多級快取:比如一級使用本地快取,二級採用分散式Cahce,三級採用分散式Cache+本地持久化;

方式很多,需要根據業務場景靈活選擇。

九、快取雪崩

雪崩是指當大量快取失效時,導致大量的請求訪問資料庫,導致資料庫伺服器,無法抗住請求或掛掉的情況。

解決方法:

(1)合理規劃快取的失效時間;

(2)合理評估資料庫的負載壓力;

(3)對資料庫進行過載保護或應用層限流;

(4)多級快取設計,快取高可用;

十、快取穿透

快取一般是Key,value方式存在,當某一個Key不存在時會查詢資料庫,假如這個Key,一直不存在,則會頻繁的請求資料庫,對資料庫造成訪問壓力。

解決方法:

(1)對結果為空的資料也進行快取,當此key有資料後,清理快取;

(2)一定不存在的key,採用布隆過濾器,建立一個大的Bitmap中,查詢時通過該bitmap過濾;

相關文章