基於雪花演算法生成分散式ID(Java版)

vchar_fred發表於2021-06-07

原文網址 : https://www.cnblogs.com/vchar/p/14857677.html

SnowFlake演算法原理介紹

在分散式系統中會將一個業務的系統部署到多臺伺服器上，使用者隨機訪問其中一臺，而之所以引入分散式系統就是為了讓整個系統能夠承載更大的訪問量。諸如訂單號這些我們需要它是全域性唯一的，同時我們基本上都會將它作為查詢條件；出於系統安全考慮不應當讓其它人輕易的就猜出我們的訂單號，同時也要防止公司的競爭對手直接通過訂單號猜測出公司業務體量；為了保證系統的快速響應那麼生成演算法不能太耗時。而雪花演算法正好解決了這些問題。

SnowFlake 演算法（雪花演算法）, 是Twitter開源的分散式id生成演算法。其核心思想就是: 使用一個64 bit的long型的數字作為全域性唯一id。它的結構如下：

下面我們來對每一部分進一步的分析：

符號標識位(1位)：計算機中為了區分負數(1)和正數(0)，設計者將第一位做為符號位，ID通常使用正數，因此最高位固定為0；
41位時間截(毫秒)，這個是使用當前時間減去開始時間得到的值；因此一旦我們的演算法投入使用，那麼程式中設定的開始時間就不能再去隨意更改了，否則將可能出現重複的id值；
由於是基於時間來實現的且只有41位，由此可以計算出該演算法只能使用70年左右：(2^41)/(1000*60*60*24*365) = 69.7 年 ；
10位機器ID：共計1024個節點，通常將其分為2部分：機房ID(dataCenterId) 和機器ID（workerId）；
12 位序列號：毫秒內的計數，共計4098個；簡單來說就是每毫秒內從0開始計算得到值；

最終SnowFlake演算法總結如下：整體上按照時間自增排序，並且整個分散式系統內不會產生ID 碰撞(由機房ID和機器ID作區分)，並且效率較高。最多支援1024臺機器，每臺機器每毫秒能夠生成最多4096個ID，整個叢集理論上每秒可以生成 1024 * 1000 * 4096 = 42 億個ID。

這裡不要覺得每毫秒4098個ID少了，我們計算一下每臺機器理論上每秒可以支援 4096*1000 = 400萬左右；要知道天貓雙11那麼大的訂單量每秒也才50萬筆；因此是完全夠用的。

演算法實現

我們在上面已經瞭解了SnowFlake的演算法結構，下面是Java版本的實現。注意我們在實現該演算法時，不一定要死死的按照上面的來實現，可以根據自身業務情況進行定製化；比如說機器ID，對於大部分的小專案來說根本不會分啥機房，因此我們完全可以根據伺服器IP來弄；同時Twitter公佈的演算法中最終生成的id長度為15，但是還是根據自身業務情況進行調整。比如標準的演算法只支援使用70年左右，但是我們可以通過擴充套件長度來增加年限。

public class SnowFlakeIdWorker {

    /**
     * 開始時間戳，單位毫秒；這裡是2021-06-01
     */
    private static final long TW_EPOCH = 1622476800000L;

    /**
     * 機器 ID 所佔的位數
     */
    private static final long WORKER_ID_BITS = 5L;

    /**
     * 資料標識 ID 所佔的位數
     */
    private static final long DATA_CENTER_ID_BITS = 5L;

    /**
     * 支援的最大機器ID，最大為31
     *
     * PS. Twitter的原始碼是 -1L ^ (-1L << workerIdBits)；這裡最後和-1進行異或運算，由於-1的二進位制補碼的特殊性，就相當於進行取反。
     */
    private static final long MAX_WORKER_ID = ~(-1L << WORKER_ID_BITS);

    /**
     * 支援的最大機房ID，最大為31
     */
    private static final long MAX_DATA_CENTER_ID = ~(-1L << DATA_CENTER_ID_BITS);

    /**
     * 序列在 ID 中佔的位數
     */
    private static final long SEQUENCE_BITS = 12L;

    /**
     * 機器 ID 向左移12位
     */
    private static final long WORKER_ID_SHIFT = SEQUENCE_BITS;

    /**
     * 機房 ID 向左移17位
     */
    private static final long DATA_CENTER_ID_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS;

    /**
     * 時間截向左移22位
     */
    private static final long TIMESTAMP_LEFT_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS + DATA_CENTER_ID_BITS;

    /**
     * 生成序列的掩碼最大值，最大為4095
     */
    private static final long SEQUENCE_MASK = ~(-1L << SEQUENCE_BITS);

    /**
     * 工作機器 ID(0~31)
     */
    private final long workerId;

    /**
     * 機房 ID(0~31)
     */
    private final long dataCenterId;

    /**
     * 毫秒內序列(0~4095)
     */
    private long sequence = 0L;

    /**
     * 上次生成 ID 的時間戳
     */
    private long lastTimestamp = -1L;

    /**
     * 建立 ID 生成器的方式一: 使用工作機器的序號(也就是將機房的去掉給機器ID使用)，範圍是 [0, 1023]，優點是方便給機器編號
     *
     * @param workerId 工作機器 ID
     */
    public SnowFlakeIdWorker(long workerId) {
        // 計算最大值
        long maxMachineId = (MAX_DATA_CENTER_ID + 1) * (MAX_WORKER_ID + 1) - 1;

        if (workerId < 0 || workerId > maxMachineId) {
            throw new IllegalArgumentException(String.format("Worker ID can't be greater than %d or less than 0", maxMachineId));
        }

        // 取高位部分作為機房ID部分
        this.dataCenterId = (workerId >> WORKER_ID_BITS) & MAX_DATA_CENTER_ID;
        // 取低位部分作為機器ID部分
        this.workerId = workerId & MAX_WORKER_ID;
    }

    /**
     * 建立 ID 生成器的方式二: 使用工作機器 ID 和機房 ID，優點是方便分機房管理
     *
     * @param dataCenterId 機房 ID (0~31)
     * @param workerId     工作機器 ID (0~31)
     */
    public SnowFlakeIdWorker(long dataCenterId, long workerId) {
        if (workerId > MAX_WORKER_ID || workerId < 0) {
            throw new IllegalArgumentException(String.format("Worker ID can't be greater than %d or less than 0", MAX_WORKER_ID));
        }
        if (dataCenterId > MAX_DATA_CENTER_ID || dataCenterId < 0) {
            throw new IllegalArgumentException(String.format("DataCenter ID can't be greater than %d or less than 0", MAX_DATA_CENTER_ID));
        }

        this.workerId = workerId;
        this.dataCenterId = dataCenterId;
    }

    /**
     * 獲得下一個 ID(該方法是執行緒安全的)
     *
     * @return 返回一個長度位15的 long型別的數字
     */
    public synchronized long nextId() {
        long timestamp = timeGen();
        // 如果當前時間小於上一次 ID 生成的時間戳，說明發生時鐘回撥，為保證ID不重複丟擲異常。
        if (timestamp < lastTimestamp) {
            throw new RuntimeException(String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }

        if (lastTimestamp == timestamp) {
            // 同一時間生成的，則序號+1
            sequence = (sequence + 1) & SEQUENCE_MASK;
            // 毫秒內序列溢位：超過最大值
            if (sequence == 0) {
                // 阻塞到下一個毫秒，獲得新的時間戳
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            // 時間戳改變，毫秒內序列重置
            sequence = 0L;
        }
        // 上次生成 ID 的時間戳
        lastTimestamp = timestamp;

        // 移位並通過或運算拼到一起
        return ((timestamp - TW_EPOCH) << TIMESTAMP_LEFT_SHIFT)
                | (dataCenterId << DATA_CENTER_ID_SHIFT)
                | (workerId << WORKER_ID_SHIFT)
                | sequence;
    }

    private long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }

    private long timeGen() {
        return System.currentTimeMillis();
    }
}

使用示例

// 初始化
SnowFlakeIdWorker idWorker = new SnowFlakeIdWorker(1, 0);

// 生成ID
for(int i=0; i<100; i++){
    System.out.println(idWorker.nextId());
}

注意伺服器不能發生時鐘回撥，即系統時間發生錯誤，因為雪花演算法是基於時間來生成，所有當發生時鐘回撥後會導致出現重複ID的問題。

基於雪花演算法的 PHP ID 生成器
2019-08-14
演算法PHP
分散式雪花演算法獲取id
2020-10-26
分散式演算法
Twitter的分散式雪花演算法 SnowFlake 每秒自增生成26個萬個可排序的ID (Java版)
2019-03-04
分散式演算法排序Java
ShardingSphere-proxy-5.0.0分散式雪花ID生成(三)
2022-06-20
分散式
如何在Java服務中實現分散式ID生成：雪花演算法與UUID的對比
2024-09-08
Java分散式演算法UI
雪花演算法【分散式ID問題】【劉新宇】
2019-08-02
演算法分散式
分散式唯一ID解決方案-雪花演算法
2021-01-12
分散式演算法
分散式唯一ID生成方案選型！詳細解析雪花演算法Snowflake
2021-07-10
分散式演算法
分散式 ID 生成演算法 — SnowFlake
2021-01-21
分散式演算法
Java使用雪花演算法實現生成全域性唯一id
2020-10-28
Java演算法
Twitter的分散式自增ID演算法snowflake (Java版)
2020-11-26
分散式演算法Java
分散式系統全域性唯一Id(SnowFlake)雪花演算法實現
2020-12-15
分散式演算法
開源一個比雪花演算法更好用的ID生成演算法（雪花漂移）
2021-04-02
演算法
DefaultIdentifierGenerator 雪花演算法生成重複 id 解決辦法
2020-11-25
IDE演算法
分散式唯一id生成策略
2018-11-26
分散式
搞懂分散式技術12：分散式ID生成方案
2019-11-19
分散式
探討分散式ID生成系統
2019-01-19
分散式
Leaf-分散式ID生成系統
2019-08-09
分散式
分散式唯一 ID 生成器
2020-06-17
分散式
分散式全域性ID生成方案
2019-07-08
分散式
分散式唯一 ID 生成器 - IDGen
2024-05-16
分散式
怎樣生成分散式的流水ID
2022-06-02
分散式
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
圖解Janusgraph系列-分散式id生成策略分析
2020-09-01
圖解分散式
分散式ID系列（5）——Twitter的雪法演算法Snowflake適合做分散式ID嗎
2019-08-14
分散式演算法
分散式id
2024-03-17
分散式
PHP 實現 Snowflake 生成分散式唯一 ID
2018-11-26
PHP分散式
Leaf：美團分散式ID生成服務開源
2019-03-08
分散式
分散式唯一ID的幾種生成方案
2023-02-19
分散式
分散式ID系列（2）——UUID適合做分散式ID嗎
2019-08-06
分散式UI
關於使用MyBatisPlus後id變一長串(雪花演算法)的踩坑
2023-01-12
MyBatis演算法
ACCESS 模擬雪花ID
2024-05-31
研究分散式唯一ID生成，看完這篇就夠
2019-07-27
分散式
分散式ID生成服務，真的有必要搞一個
2020-07-22
分散式
分散式ID生成器的解決方案總結
2021-09-09
分散式
全域性唯一ID生成常見的幾種方式和twitter/snowflake（雪花演算法）解析
2018-09-18
演算法
Golang 分散式 ID 生成系統，高效能、高可用、易擴充套件的 id 生成服務
2020-06-10
Golang分散式套件
生成分散式唯一ID的幾種解決方案
2018-07-26
分散式

基於雪花演算法生成分散式ID(Java版)

SnowFlake演算法原理介紹

演算法實現

相關文章