一致性Hash在負載均衡中的應用

不洗碗工作室發表於2018-09-05

原文網址 : https://juejin.im/post/5b8f93576fb9a05d11175b8d

負載

作者：不洗碗工作室 - Marklux

出處：Marklux's Pub

版權歸作者所有，轉載請註明出處

簡介

一致性Hash是一種特殊的Hash演算法，由於其均衡性、永續性的對映特點，被廣泛的應用於負載均衡領域，如nginx和memcached都採用了一致性Hash來作為叢集負載均衡的方案。

本文將介紹一致性Hash的基本思路，並討論其在分散式快取叢集負載均衡中的應用。同時也會進行相應的程式碼測試來驗證其演算法特性，並給出和其他負載均衡方案的一些對比。

一致性Hash演算法簡介

在瞭解一致性Hash演算法之前，先來討論一下Hash本身的特點。普通的Hash函式最大的作用是雜湊，或者說是將一系列在形式上具有相似性質的資料，打散成隨機的、均勻分佈的資料。

比如，對字串abc和abcd分別進行md5計算，得到的結果如下：

可以看到，兩個在形式上非常相近的資料經過md5雜湊後，變成了完全隨機的字串。負載均衡正是利用這一特性，對於大量隨機的請求或呼叫，通過一定形式的Hash將他們均勻的雜湊，從而實現壓力的平均化。（當然，並不是只要使用了Hash就一定能夠獲得均勻的雜湊，後面會分析這一點。）

舉個例子，如果我們給每個請求生成一個Key，只要使用一個非常簡單的Hash演算法Group = Key % N來實現請求的負載均衡，如下：

（如果將Key作為快取的Key，對應的Group儲存該Key的Value，就可以實現一個分散式的快取系統，後文的具體例子都將基於這個場景）

不難發現，這樣的Hash只要叢集的數量N發生變化，之前的所有Hash對映就會全部失效。如果叢集中的每個機器提供的服務沒有差別，倒不會產生什麼影響，但對於分散式快取這樣的系統而言，對映全部失效就意味著之前的快取全部失效，後果將會是災難性的。

一致性Hash通過構建環狀的Hash空間代替線性Hash空間的方法解決了這個問題，如下圖：

整個Hash空間被構建成一個首尾相接的環，使用一致性Hash時需要進行兩次對映。

第一次，給每個節點（叢集）計算Hash，然後記錄它們的Hash值，這就是它們在環上的位置。

第二次，給每個Key計算Hash，然後沿著順時針的方向找到環上的第一個節點，就是該Key儲存對應的叢集。

分析一下節點增加和刪除時對負載均衡的影響，如下圖：

可以看到，當節點被刪除時，其餘節點在環上的對映不會發生改變，只是原來打在對應節點上的Key現在會轉移到順時針方向的下一個節點上去。增加一個節點也是同樣的，最終都只有少部分的Key發生了失效。不過發生節點變動後，整體系統的壓力已經不是均衡的了，下文中提到的方法將會解決這個問題。

問題與優化

最基本的一致性Hash演算法直接應用於負載均衡系統，效果仍然是不理想的，存在諸多問題，下面就對這些問題進行逐個分析並尋求更好的解決方案。

資料傾斜

如果節點的數量很少，而hash環空間很大（一般是 0 ~ 2^32），直接進行一致性hash上去，大部分情況下節點在環上的位置會很不均勻，擠在某個很小的區域。最終對分散式快取造成的影響就是，叢集的每個例項上儲存的快取資料量不一致，會發生嚴重的資料傾斜。

快取雪崩

如果每個節點在環上只有一個節點，那麼可以想象，當某一叢集從環中消失時，它原本所負責的任務將全部交由順時針方向的下一個叢集處理。例如，當group0退出時，它原本所負責的快取將全部交給group1處理。這就意味著group1的訪問壓力會瞬間增大。設想一下，如果group1因為壓力過大而崩潰，那麼更大的壓力又會向group2壓過去，最終服務壓力就像滾雪球一樣越滾越大，最終導致雪崩。

引入虛擬節點

解決上述兩個問題最好的辦法就是擴充套件整個環上的節點數量，因此我們引入了虛擬節點的概念。一個實際節點將會對映多個虛擬節點，這樣Hash環上的空間分割就會變得均勻。

同時，引入虛擬節點還會使得節點在Hash環上的順序隨機化，這意味著當一個真實節點失效退出後，它原來所承載的壓力將會均勻地分散到其他節點上去。

如下圖：

程式碼測試

現在我們嘗試編寫一些測試程式碼，來看看一致性hash的實際效果是否符合我們預期。

首先我們需要一個能夠對輸入進行均勻雜湊的Hash演算法，可供選擇的有很多，memcached官方使用了基於md5的KETAMA演算法，但這裡處於計算效率的考慮，使用了FNV1_32_HASH演算法，如下：

public class HashUtil {
    /**
     * 計算Hash值, 使用FNV1_32_HASH演算法
     * @param str
     * @return
     */
    public static int getHash(String str) {
        final int p = 16777619;
        int hash = (int)2166136261L;
        for (int i = 0; i < str.length(); i++) {
            hash =( hash ^ str.charAt(i) ) * p;
        }
        hash += hash << 13;
        hash ^= hash >> 7;
        hash += hash << 3;
        hash ^= hash >> 17;
        hash += hash << 5;

        if (hash < 0) {
            hash = Math.abs(hash);
        }
        return hash;
    }
}

複製程式碼

實際使用時可以根據需求調整。

接著需要使用一種資料結構來儲存hash環，可以採用的方案有很多種，最簡單的是採用陣列或連結串列。但這樣查詢的時候需要進行排序，如果節點數量多，速度就可能變得很慢。

針對叢集負載均衡狀態讀多寫少的狀態，很容易聯想到使用二叉平衡樹的結構去儲存，實際上可以使用TreeMap（內部實現是紅黑樹）來作為Hash環的儲存結構。

先編寫一個最簡單的，無虛擬節點的Hash環測試：

public class ConsistentHashingWithoutVirtualNode {

    /**
     * 叢集地址列表
     */
    private static String[] groups = {
        "192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",
        "192.168.0.3:111", "192.168.0.4:111"
    };

    /**
     * 用於儲存Hash環上的節點
     */
    private static SortedMap<Integer, String> sortedMap = new TreeMap<>();

    /**
     * 初始化，將所有的伺服器加入Hash環中
     */
    static {
        // 使用紅黑樹實現，插入效率比較差，但是查詢效率極高
        for (String group : groups) {
            int hash = HashUtil.getHash(group);
            System.out.println("[" + group + "] launched @ " + hash);
            sortedMap.put(hash, group);
        }
    }

    /**
     * 計算對應的widget載入在哪個group上
     *
     * @param widgetKey
     * @return
     */
    private static String getServer(String widgetKey) {
        int hash = HashUtil.getHash(widgetKey);
        // 只取出所有大於該hash值的部分而不必遍歷整個Tree
        SortedMap<Integer, String> subMap = sortedMap.tailMap(hash);
        if (subMap == null || subMap.isEmpty()) {
            // hash值在最尾部，應該對映到第一個group上
            return sortedMap.get(sortedMap.firstKey());
        }
        return subMap.get(subMap.firstKey());
    }

    public static void main(String[] args) {
        // 生成隨機數進行測試
        Map<String, Integer> resMap = new HashMap<>();

        for (int i = 0; i < 100000; i++) {
            Integer widgetId = (int)(Math.random() * 10000);
            String server = getServer(widgetId.toString());
            if (resMap.containsKey(server)) {
                resMap.put(server, resMap.get(server) + 1);
            } else {
                resMap.put(server, 1);
            }
        }

        resMap.forEach(
            (k, v) -> {
                System.out.println("group " + k + ": " + v + "(" + v/1000.0D +"%)");
            }
        );
    }
}

複製程式碼

生成10000個隨機數字進行測試，最終得到的壓力分佈情況如下：

[192.168.0.1:111] launched @ 8518713
[192.168.0.2:111] launched @ 1361847097
[192.168.0.3:111] launched @ 1171828661
[192.168.0.4:111] launched @ 1764547046
group 192.168.0.2:111: 8572(8.572%)
group 192.168.0.1:111: 18693(18.693%)
group 192.168.0.4:111: 17764(17.764%)
group 192.168.0.3:111: 27870(27.87%)
group 192.168.0.0:111: 27101(27.101%)
複製程式碼

可以看到壓力還是比較不平均的，所以我們繼續，引入虛擬節點：

public class ConsistentHashingWithVirtualNode {
    /**
     * 叢集地址列表
     */
    private static String[] groups = {
        "192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",
        "192.168.0.3:111", "192.168.0.4:111"
    };

    /**
     * 真實叢集列表
     */
    private static List<String> realGroups = new LinkedList<>();

    /**
     * 虛擬節點對映關係
     */
    private static SortedMap<Integer, String> virtualNodes = new TreeMap<>();

    private static final int VIRTUAL_NODE_NUM = 1000;

    static {
        // 先新增真實節點列表
        realGroups.addAll(Arrays.asList(groups));

        // 將虛擬節點對映到Hash環上
        for (String realGroup: realGroups) {
            for (int i = 0; i < VIRTUAL_NODE_NUM; i++) {
                String virtualNodeName = getVirtualNodeName(realGroup, i);
                int hash = HashUtil.getHash(virtualNodeName);
                System.out.println("[" + virtualNodeName + "] launched @ " + hash);
                virtualNodes.put(hash, virtualNodeName);
            }
        }
    }

    private static String getVirtualNodeName(String realName, int num) {
        return realName + "&&VN" + String.valueOf(num);
    }

    private static String getRealNodeName(String virtualName) {
        return virtualName.split("&&")[0];
    }

    private static String getServer(String widgetKey) {
        int hash = HashUtil.getHash(widgetKey);
        // 只取出所有大於該hash值的部分而不必遍歷整個Tree
        SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash);
        String virtualNodeName;
        if (subMap == null || subMap.isEmpty()) {
            // hash值在最尾部，應該對映到第一個group上
            virtualNodeName = virtualNodes.get(virtualNodes.firstKey());
        }else {
            virtualNodeName = subMap.get(subMap.firstKey());
        }
        return getRealNodeName(virtualNodeName);
    }

    public static void main(String[] args) {
        // 生成隨機數進行測試
        Map<String, Integer> resMap = new HashMap<>();

        for (int i = 0; i < 100000; i++) {
            Integer widgetId = i;
            String group = getServer(widgetId.toString());
            if (resMap.containsKey(group)) {
                resMap.put(group, resMap.get(group) + 1);
            } else {
                resMap.put(group, 1);
            }
        }

        resMap.forEach(
            (k, v) -> {
                System.out.println("group " + k + ": " + v + "(" + v/100000.0D +"%)");
            }
        );
    }
}
複製程式碼

這裡真實節點和虛擬節點的對映採用了字串拼接的方式，這種方式雖然簡單但很有效，memcached官方也是這麼實現的。將虛擬節點的數量設定為1000，重新測試壓力分佈情況，結果如下：

group 192.168.0.2:111: 18354(18.354%)
group 192.168.0.1:111: 20062(20.062%)
group 192.168.0.4:111: 20749(20.749%)
group 192.168.0.3:111: 20116(20.116%)
group 192.168.0.0:111: 20719(20.719%)
複製程式碼

可以看到基本已經達到平均分佈了，接著繼續測試刪除和增加節點給整個服務帶來的影響，相關測試程式碼如下：

private static void refreshHashCircle() {
    // 當叢集變動時，重新整理hash環，其餘的叢集在hash環上的位置不會發生變動
	virtualNodes.clear();
    for (String realGroup: realGroups) {
    	for (int i = 0; i < VIRTUAL_NODE_NUM; i++) {
       		String virtualNodeName = getVirtualNodeName(realGroup, i);
            int hash = HashUtil.getHash(virtualNodeName);
            System.out.println("[" + virtualNodeName + "] launched @ " + hash);
            virtualNodes.put(hash, virtualNodeName);
        }
    }
}
private static void addGroup(String identifier) {
	realGroups.add(identifier);
    refreshHashCircle();
}

private static void removeGroup(String identifier) {
    int i = 0;
    for (String group:realGroups) {
    	if (group.equals(identifier)) {
        	realGroups.remove(i);
        }
        i++;
    }
    refreshHashCircle();
}
複製程式碼

測試刪除一個叢集前後的壓力分佈如下：

running the normal test.
group 192.168.0.2:111: 19144(19.144%)
group 192.168.0.1:111: 20244(20.244%)
group 192.168.0.4:111: 20923(20.923%)
group 192.168.0.3:111: 19811(19.811%)
group 192.168.0.0:111: 19878(19.878%)
removed a group, run test again.
group 192.168.0.2:111: 23409(23.409%)
group 192.168.0.1:111: 25628(25.628%)
group 192.168.0.4:111: 25583(25.583%)
group 192.168.0.0:111: 25380(25.38%)
複製程式碼

同時計算一下消失的叢集上的Key最終如何轉移到其他叢集上：

[192.168.0.1:111-192.168.0.4:111] :5255
[192.168.0.1:111-192.168.0.3:111] :5090
[192.168.0.1:111-192.168.0.2:111] :5069
[192.168.0.1:111-192.168.0.0:111] :4938
複製程式碼

可見，刪除叢集后，該叢集上的壓力均勻地分散給了其他叢集，最終整個叢集仍處於負載均衡狀態，符合我們的預期，最後看一下新增叢集的情況。

壓力分佈：

running the normal test.
group 192.168.0.2:111: 18890(18.89%)
group 192.168.0.1:111: 20293(20.293%)
group 192.168.0.4:111: 21000(21.0%)
group 192.168.0.3:111: 19816(19.816%)
group 192.168.0.0:111: 20001(20.001%)
add a group, run test again.
group 192.168.0.2:111: 15524(15.524%)
group 192.168.0.7:111: 16928(16.928%)
group 192.168.0.1:111: 16888(16.888%)
group 192.168.0.4:111: 16965(16.965%)
group 192.168.0.3:111: 16768(16.768%)
group 192.168.0.0:111: 16927(16.927%)
複製程式碼

壓力轉移：

[192.168.0.0:111-192.168.0.7:111] :3102
[192.168.0.4:111-192.168.0.7:111] :4060
[192.168.0.2:111-192.168.0.7:111] :3313
[192.168.0.1:111-192.168.0.7:111] :3292
[192.168.0.3:111-192.168.0.7:111] :3261
複製程式碼

綜上可以得出結論，在引入足夠多的虛擬節點後，一致性hash還是能夠比較完美地滿足負載均衡需要的。

優雅縮擴容

快取伺服器對於效能有著較高的要求，因此我們希望在擴容時新的叢集能夠較快的填充好資料並工作。但是從一個叢集啟動，到真正加入並可以提供服務之間還存在著不小的時間延遲，要實現更優雅的擴容，我們可以從兩個方面出發：

高頻Key預熱

負載均衡器作為路由層，是可以收集並統計每個快取Key的訪問頻率的，如果能夠維護一份高頻訪問Key的列表，新的叢集在啟動時根據這個列表提前拉取對應Key的快取值進行預熱，便可以大大減少因為新增叢集而導致的Key失效。

具體的設計可以通過快取來實現，如下：

不過這個方案在實際使用時有一個很大的限制，那就是高頻Key本身的快取失效時間可能很短，預熱時儲存的Value在實際被訪問到時可能已經被更新或者失效，處理不當會導致出現髒資料，因此實現難度還是有一些大的。
歷史Hash環保留

回顧一致性Hash的擴容，不難發現新增節點後，它所對應的Key在原來的節點還會保留一段時間。因此在擴容的延遲時間段，如果對應的Key快取在新節點上還沒有被載入，可以去原有的節點上嘗試讀取。

舉例，假設我們原有3個叢集，現在要擴充套件到6個叢集，這就意味著原有50%的Key都會失效（被轉移到新節點上），如果我們維護擴容前和擴容後的兩個Hash環，在擴容後的Hash環上找不到Key的儲存時，先轉向擴容前的Hash環尋找一波，如果能夠找到就返回對應的值並將該快取寫入新的節點上，找不到時再透過快取，如下圖：

這樣做的缺點是增加了快取讀取的時間，但相比於直接擊穿快取而言還是要好很多的。優點則是可以隨意擴容多臺機器，而不會產生大面積的快取失效。

談完了擴容，再談談縮容。

熔斷機制

縮容後，剩餘各個節點上的訪問壓力都會有所增加，此時如果某個節點因為壓力過大而當機，就可能會引發連鎖反應。因此作為兜底方案，應當給每個叢集設立對應熔斷機制來保護服務的穩定性。
多叢集LB的更新延遲

這個問題在縮容時比較嚴重，如果你使用一個叢集來作為負載均衡，並使用一個配置伺服器比如ConfigServer來推送叢集狀態以構建Hash環，那麼在某個叢集退出時這個狀態並不一定會被立刻同步到所有的LB上，這就可能會導致一個暫時的排程不一致，如下圖：

如果某臺LB錯誤地將請求打到了已經退出的叢集上，就會導致快取擊穿。解決這個問題主要有以下幾種思路：
- 緩慢縮容，等到Hash環完全同步後再操作。可以通過監聽退出叢集的訪問QPS來實現這一點，等到該叢集幾乎沒有QPS時再將其撤下。
- 手動刪除，如果Hash環上對應的節點找不到了，就手動將其從Hash環上刪除，然後重新進行排程，這個方式有一定的風險，對於網路抖動等異常情況相容的不是很好。
- 主動拉取和重試，當Hash環上節點失效時，主動從ZK上重新拉取叢集狀態來構建新Hash環，在一定次數內可以進行多次重試。

對比：HashSlot

瞭解了一致性Hash演算法的特點後，我們也不難發現一些不盡人意的地方：

整個分散式快取需要一個路由服務來做負載均衡，存在單點問題（如果路由服務掛了，整個快取也就涼了）
Hash環上的節點非常多或者更新頻繁時，查詢效能會比較低下

針對這些問題，Redis在實現自己的分散式叢集方案時，設計了全新的思路：基於P2P結構的HashSlot演算法，下面簡單介紹一下：

使用HashSlot

類似於Hash環，Redis Cluster採用HashSlot來實現Key值的均勻分佈和例項的增刪管理。

首先預設分配了16384個Slot（這個大小正好可以使用2kb的空間儲存），每個Slot相當於一致性Hash環上的一個節點。接入叢集的所有例項將均勻地佔有這些Slot，而最終當我們Set一個Key時，使用CRC16(Key) % 16384來計算出這個Key屬於哪個Slot，並最終對映到對應的例項上去。

那麼當增刪例項時，Slot和例項間的對應要如何進行對應的改動呢？

舉個例子，原本有3個節點A,B,C，那麼一開始建立叢集時Slot的覆蓋情況是：
```
節點A	0－5460
節點B	5461－10922
節點C	10923－16383
複製程式碼
```
現在假設要增加一個節點D，RedisCluster的做法是將之前每臺機器上的一部分Slot移動到D上（注意這個過程也意味著要對節點D寫入的KV儲存），成功接入後Slot的覆蓋情況將變為如下情況：
```
節點A	1365-5460
節點B	6827-10922
節點C	12288-16383
節點D	0-1364,5461-6826,10923-12287
複製程式碼
```
同理刪除一個節點，就是將其原來佔有的Slot以及對應的KV儲存均勻地歸還給其他節點。
P2P節點尋找

現在我們考慮如何實現去中心化的訪問，也就是說無論訪問叢集中的哪個節點，你都能夠拿到想要的資料。其實這有點類似於路由器的路由表，具體說來就是：
- 每個節點都儲存有完整的HashSlot - 節點對映表，也就是說，每個節點都知道自己擁有哪些Slot，以及某個確定的Slot究竟對應著哪個節點。
- 無論向哪個節點發出尋找Key的請求，該節點都會通過CRC(Key) % 16384計算該Key究竟存在於哪個Slot，並將請求轉發至該Slot所在的節點。
總結一下就是兩個要點：對映表和內部轉發，這是通過著名的**Gossip協議**來實現的。

最後我們可以給出Redis Cluster的系統結構圖，和一致性Hash環還是有著很明顯的區別的：

對比一下，HashSlot + P2P的方案解決了去中心化的問題，同時也提供了更好的動態擴充套件性。但相比於一致性Hash而言，其結構更加複雜，實現上也更加困難。

而在之前的分析中我們也能看出，一致性Hash方案整體上還是有著不錯的表現的，因此在實際的系統應用中，可以根據開發成本和效能要求合理地選擇最適合的方案。總之，兩者都非常優秀，至於用哪個、怎麼用，就是仁者見仁智者見智的問題了。

參考閱讀

使用Rancher建立負載均衡的容器應用
2018-07-14
負載
在Linux中，如何實現負載均衡？
2024-04-07
Linux負載
SAP 應用服務負載均衡的實現
2020-01-12
負載
Kubernetes 中的 gRPC 負載均衡
2021-11-15
RPC負載
在 Linux 上用 DNS 實現簡單的負載均衡
2018-06-24
LinuxDNS負載
在 kubernetes 環境中實現 gRPC 負載均衡
2023-10-17
RPC負載
在Linux中，什麼是負載均衡？它是如何工作的？
2024-04-01
Linux負載
gRPC負載均衡（自定義負載均衡策略）
2020-05-20
RPC負載
gRPC負載均衡（客戶端負載均衡）
2020-05-18
RPC負載客戶端
在docker中haproxy的安裝以及mysql的負載均衡配置
2021-09-04
DockerMySql負載
負載均衡
2024-05-05
負載
Kafka 負載均衡在 vivo 的落地實踐
2022-09-30
Kafka負載
gRPC的負載均衡
2024-03-19
RPC負載
Getting Started and Beyond｜雲原生應用負載均衡選型指南
2021-05-12
負載
一致性雜湊負載均衡演算法的探討
2019-03-04
負載演算法
Hive叢集合併之應用端的負載均衡演算法
2019-05-12
Hive負載演算法
IP負載均衡
2018-09-29
負載
WebSocket負載均衡
2018-08-06
Web負載
nginx負載均衡
2024-03-13
Nginx負載
NGINX 負載均衡
2019-11-17
Nginx負載
【Nginx】負載均衡
2024-06-13
Nginx負載
負載均衡---ribbon
2018-04-19
負載
LoadBalancer負載均衡
2022-03-07
負載
LVS 負載均衡
2022-12-15
負載
負載均衡在分散式架構中是怎麼玩起來的？
2018-10-25
負載分散式架構
OceanBase 負載均衡的魅力
2019-03-01
負載
4.8 負載均衡的概念
2018-11-15
負載
負載均衡的那些事？
2018-05-17
負載
負載均衡的種類
2020-02-11
負載
Kubernetes中負載均衡功能簡介
2024-03-08
負載
負載均衡技術（一）———負載均衡技術介紹
2018-11-15
負載
解密負載均衡技術和負載均衡演算法
2022-11-10
解密負載演算法
iQiYi 高效能開源負載均衡器及應用
2019-03-07
負載
Talos網路卡負載最佳化：基於個性化一致性雜湊的負載均衡
2022-12-05
負載
做了反向代理和負載均衡的nginx配置檔案簡單示例(nginx.conf) HTTP負載均衡/TCP負載均衡
2024-12-10
負載NginxHTTPTCP
前端技術分享：Nginx負載均衡影片，基礎的實戰應用
2021-03-19
前端Nginx負載
在K8S中，負載均衡器有何作用?
2024-10-11
K8S負載
負載均衡技術(二）———常用負載均衡服務介紹
2018-11-15
負載