基於雪花演算法生成分散式ID(Java版)

vchar_fred 發表於 2021-06-07
Java 演算法

SnowFlake演算法原理介紹

在分散式系統中會將一個業務的系統部署到多臺伺服器上,使用者隨機訪問其中一臺,而之所以引入分散式系統就是為了讓整個系統能夠承載更大的訪問量。諸如訂單號這些我們需要它是全域性唯一的,同時我們基本上都會將它作為查詢條件;出於系統安全考慮不應當讓其它人輕易的就猜出我們的訂單號,同時也要防止公司的競爭對手直接通過訂單號猜測出公司業務體量;為了保證系統的快速響應那麼生成演算法不能太耗時。而雪花演算法正好解決了這些問題。

SnowFlake 演算法(雪花演算法), 是Twitter開源的分散式id生成演算法。其核心思想就是: 使用一個64 bit的long型的數字作為全域性唯一id。它的結構如下:

基於雪花演算法生成分散式ID(Java版)

下面我們來對每一部分進一步的分析:

  • 符號標識位(1位):計算機中為了區分負數(1)和正數(0),設計者將第一位做為符號位,ID通常使用正數,因此最高位固定為0;
  • 41位時間截(毫秒),這個是使用 當前時間 減去 開始時間 得到的值;因此一旦我們的演算法投入使用,那麼程式中設定的開始時間就不能再去隨意更改了,否則將可能出現重複的id值;
    由於是基於時間來實現的且只有41位,由此可以計算出該演算法只能使用70年左右:(2^41)/(1000*60*60*24*365) = 69.7 年
  • 10位機器ID:共計1024個節點,通常將其分為2部分:機房ID(dataCenterId) 和 機器ID(workerId);
  • 12 位序列號:毫秒內的計數,共計4098個;簡單來說就是每毫秒內從0開始計算得到值;

最終SnowFlake演算法總結如下:整體上按照時間自增排序,並且整個分散式系統內不會產生ID 碰撞(由機房ID和機器ID作區分),並且效率較高。最多支援1024臺機器,每臺機器每毫秒能夠生成最多4096個ID,整個叢集理論上每秒可以生成 1024 * 1000 * 4096 = 42 億個ID。

這裡不要覺得每毫秒4098個ID少了,我們計算一下每臺機器理論上每秒可以支援 4096*1000 = 400萬左右;要知道天貓雙11那麼大的訂單量每秒也才50萬筆;因此是完全夠用的。

演算法實現

我們在上面已經瞭解了SnowFlake的演算法結構,下面是Java版本的實現。注意我們在實現該演算法時,不一定要死死的按照上面的來實現,可以根據自身業務情況進行定製化;比如說機器ID,對於大部分的小專案來說根本不會分啥機房,因此我們完全可以根據伺服器IP來弄;同時Twitter公佈的演算法中最終生成的id長度為15,但是還是根據自身業務情況進行調整。比如標準的演算法只支援使用70年左右,但是我們可以通過擴充套件長度來增加年限。

public class SnowFlakeIdWorker {

    /**
     * 開始時間戳,單位毫秒;這裡是2021-06-01
     */
    private static final long TW_EPOCH = 1622476800000L;

    /**
     * 機器 ID 所佔的位數
     */
    private static final long WORKER_ID_BITS = 5L;

    /**
     * 資料標識 ID 所佔的位數
     */
    private static final long DATA_CENTER_ID_BITS = 5L;

    /**
     * 支援的最大機器ID,最大為31
     *
     * PS. Twitter的原始碼是 -1L ^ (-1L << workerIdBits);這裡最後和-1進行異或運算,由於-1的二進位制補碼的特殊性,就相當於進行取反。
     */
    private static final long MAX_WORKER_ID = ~(-1L << WORKER_ID_BITS);

    /**
     * 支援的最大機房ID,最大為31
     */
    private static final long MAX_DATA_CENTER_ID = ~(-1L << DATA_CENTER_ID_BITS);

    /**
     * 序列在 ID 中佔的位數
     */
    private static final long SEQUENCE_BITS = 12L;

    /**
     * 機器 ID 向左移12位
     */
    private static final long WORKER_ID_SHIFT = SEQUENCE_BITS;

    /**
     * 機房 ID 向左移17位
     */
    private static final long DATA_CENTER_ID_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS;

    /**
     * 時間截向左移22位
     */
    private static final long TIMESTAMP_LEFT_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS + DATA_CENTER_ID_BITS;

    /**
     * 生成序列的掩碼最大值,最大為4095
     */
    private static final long SEQUENCE_MASK = ~(-1L << SEQUENCE_BITS);

    /**
     * 工作機器 ID(0~31)
     */
    private final long workerId;

    /**
     * 機房 ID(0~31)
     */
    private final long dataCenterId;

    /**
     * 毫秒內序列(0~4095)
     */
    private long sequence = 0L;

    /**
     * 上次生成 ID 的時間戳
     */
    private long lastTimestamp = -1L;

    /**
     * 建立 ID 生成器的方式一: 使用工作機器的序號(也就是將機房的去掉給機器ID使用),範圍是 [0, 1023],優點是方便給機器編號
     *
     * @param workerId 工作機器 ID
     */
    public SnowFlakeIdWorker(long workerId) {
        // 計算最大值
        long maxMachineId = (MAX_DATA_CENTER_ID + 1) * (MAX_WORKER_ID + 1) - 1;

        if (workerId < 0 || workerId > maxMachineId) {
            throw new IllegalArgumentException(String.format("Worker ID can't be greater than %d or less than 0", maxMachineId));
        }

        // 取高位部分作為機房ID部分
        this.dataCenterId = (workerId >> WORKER_ID_BITS) & MAX_DATA_CENTER_ID;
        // 取低位部分作為機器ID部分
        this.workerId = workerId & MAX_WORKER_ID;
    }

    /**
     * 建立 ID 生成器的方式二: 使用工作機器 ID 和機房 ID,優點是方便分機房管理
     *
     * @param dataCenterId 機房 ID (0~31)
     * @param workerId     工作機器 ID (0~31)
     */
    public SnowFlakeIdWorker(long dataCenterId, long workerId) {
        if (workerId > MAX_WORKER_ID || workerId < 0) {
            throw new IllegalArgumentException(String.format("Worker ID can't be greater than %d or less than 0", MAX_WORKER_ID));
        }
        if (dataCenterId > MAX_DATA_CENTER_ID || dataCenterId < 0) {
            throw new IllegalArgumentException(String.format("DataCenter ID can't be greater than %d or less than 0", MAX_DATA_CENTER_ID));
        }

        this.workerId = workerId;
        this.dataCenterId = dataCenterId;
    }

    /**
     * 獲得下一個 ID(該方法是執行緒安全的)
     *
     * @return 返回一個長度位15的 long型別的數字
     */
    public synchronized long nextId() {
        long timestamp = timeGen();
        // 如果當前時間小於上一次 ID 生成的時間戳,說明發生時鐘回撥,為保證ID不重複丟擲異常。
        if (timestamp < lastTimestamp) {
            throw new RuntimeException(String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }

        if (lastTimestamp == timestamp) {
            // 同一時間生成的,則序號+1
            sequence = (sequence + 1) & SEQUENCE_MASK;
            // 毫秒內序列溢位:超過最大值
            if (sequence == 0) {
                // 阻塞到下一個毫秒,獲得新的時間戳
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            // 時間戳改變,毫秒內序列重置
            sequence = 0L;
        }
        // 上次生成 ID 的時間戳
        lastTimestamp = timestamp;

        // 移位並通過或運算拼到一起
        return ((timestamp - TW_EPOCH) << TIMESTAMP_LEFT_SHIFT)
                | (dataCenterId << DATA_CENTER_ID_SHIFT)
                | (workerId << WORKER_ID_SHIFT)
                | sequence;
    }

    private long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }

    private long timeGen() {
        return System.currentTimeMillis();
    }
}

使用示例

// 初始化
SnowFlakeIdWorker idWorker = new SnowFlakeIdWorker(1, 0);

// 生成ID
for(int i=0; i<100; i++){
    System.out.println(idWorker.nextId());
}

注意伺服器不能發生時鐘回撥,即系統時間發生錯誤,因為雪花演算法是基於時間來生成,所有當發生時鐘回撥後會導致出現重複ID的問題。

基於雪花演算法生成分散式ID(Java版)