1、快取的意義
說到分散式系統基本上就離不開快取,在高併發,大流量的場景下快取更是扮演著重要的角色。所以作為一個分散式系統的開發人員是必須熟練掌握快取的使用與設計。下面是一張簡單的系統架構圖
從圖中我們知道了快取在系統層面的所處位置,可以在應用系統的內部也可以在外部。那快取的意義又是什麼呢?
1、縮短系統的響應時間,提升使用者體驗。如果在系統的內部就已經快取有了使用者請求所需要的結果,那麼就不在需要執行其後面操作如外部RPC,DB查詢,直接返回結果,給使用者流暢般的系統體驗。
2、扛住更大的流量,保護關鍵系統元件。舉個例子在高併發,大流量的場景下如果沒有快取的保護,所有的請求的都直接穿透到我們底層的DB。DB基本上都是扛不住的,DB一旦當機基本上整個系統就over了,但很多快取中介軟體比如redis,memcache卻可以扛得住。
3、提升系統穩定性,提高整體吞吐量。第三點其實由前面兩點總結出來的。
2、快取的分類
根據快取的儲存情況可以分為:集中式快取,本地快取,分散式快取。
集中式快取:所有的快取都統一在一個地方管理。
優點:資料集中容易管理,一致性好,實時性好,只要修改一處地方可以立即看到效果。
缺點:集中式快取通常都存放在系統的外部,高併發請求下頻寬很容易成為瓶頸。
優化:減少不必要的資料,只儲存真正需要的資料。對放進快取的資料進行壓縮,取出來之後再進行解壓。目的都是為了減少資料傳輸對帶完的佔用。
本地快取:又叫localCache,每個應用的本地都留著一份完整的快取副本。
優點:效能好,相對於集中式快取不需要訪問外部並且沒有頻寬的壓力。
缺點:資料分散,不容易管理。資料一致性差,多個副本之間資料同步有延時。
優化:必須給本地快取加上一個過期失效時間,並且建立一套相對實時資料更新機制,保證副本的資料能夠有效及時更新。
分散式快取:以叢集的方式搭建快取,比如redis叢集。
優點:高效能,支援動態擴充套件,支援高可用
分散式快取叢集都是以分片的形式資料分散到多臺機器上面去儲存,分片的形式有客戶端分片(memcahed),服務端分片(redis),分片用的hash演算法通常採用一致性hash。這一塊涉及的內容比較多,有時間的話後面打算專門獨立討論。
3、快取的特徵
快取也是一個資料模型物件,那麼必然有它的一些特徵:
命中率
命中率=返回正確結果數/請求快取次數,命中率問題是快取中的一個非常重要的問題,它是衡量快取有效性的重要指標。命中率越高,表明快取的使用率越高。
最大元素(或最大空間)
快取中可以存放的最大元素的數量,一旦快取中元素數量超過這個值(或者快取資料所佔空間超過其最大支援空間),那麼將會觸發快取啟動清空策略根據不同的場景合理的設定最大元素值往往可以一定程度上提高快取的命中率,從而更有效的時候快取。
4、快取的清空策略
如上描述,快取的儲存空間有限制,當快取空間被用滿時,如何保證在穩定服務的同時有效提升命中率?這就由快取清空策略來處理,設計適合自身資料特徵的清空策略能有效提升命中率。常見的一般策略有:
FIFO(first in first out)
先進先出策略,最先進入快取的資料在快取空間不夠的情況下(超出最大元素限制)會被優先被清除掉,以騰出新的空間接受新的資料。策略演算法主要比較快取元素的建立時間。在資料實效性要求場景下可選擇該類策略,優先保障最新資料可用。
LFU(less frequently used)
最少使用策略,無論是否過期,根據元素的被使用次數判斷,清除使用次數較少的元素釋放空間。策略演算法主要比較元素的hitCount(命中次數)。在保證高頻資料有效性場景下,可選擇這類策略。
LRU(least recently used)
最近最少使用策略,無論是否過期,根據元素最後一次被使用的時間戳,清除最遠使用時間戳的元素釋放空間。策略演算法主要比較元素最近一次被get使用時間。在熱點資料場景下較適用,優先保證熱點資料的有效性。
除此之外,還有一些簡單策略比如:
根據過期時間判斷,清理過期時間最長的元素;
根據過期時間判斷,清理最近要過期的元素;
隨機清理;
根據關鍵字(或元素內容)長短清理等。
注:關注作者微信公眾號,瞭解更多分散式架構、微服務、netty、MySQL、spring、、效能優化、等知識點。 公眾號:《 Java大蝸牛 》