Snowflake（雪花演算法），什麼情況下會衝突？

小馬哥不會程式碼發表於2022-06-22

原文網址 : https://www.cnblogs.com/longtaiblog/p/16399125.html

演算法

文章首發在公眾號（龍臺的技術筆記），之後同步到部落格園和個人網站：xiaomage.info

分散式系統中，有一些需要使用全域性唯一 ID 的場景，這種時候為了防止 ID 衝突可以使用 36 位的 UUID，但是 UUID 有一些缺點，首先他相對比較長，另外 UUID 一般是無序的

有些時候我們希望能使用一種簡單些的 ID，並且希望 ID 能夠按照時間有序生成

什麼是雪花演算法

Snowflake 中文的意思是雪花，所以常被稱為雪花演算法，是 Twitter 開源的分散式 ID 生成演算法

Twitter 雪花演算法生成後是一個 64bit 的 long 型的數值，組成部分引入了時間戳，基本保持了自增

SnowFlake 演算法的優點：

高效能高可用：生成時不依賴於資料庫，完全在記憶體中生成
高吞吐：每秒鐘能生成數百萬的自增 ID
ID 自增：存入資料庫中，索引效率高

SnowFlake 演算法的缺點：

依賴與系統時間的一致性，如果系統時間被回撥，或者改變，可能會造成 ID 衝突或者重複

雪花演算法組成

snowflake 結構如下圖所示：

包含四個組成部分

不使用：1bit，最高位是符號位，0 表示正，1 表示負，固定為 0

時間戳：41bit，毫秒級的時間戳（41 位的長度可以使用 69 年）

標識位：5bit 資料中心 ID，5bit 工作機器 ID，兩個標識位組合起來最多可以支援部署 1024 個節點

序列號：12bit 遞增序列號，表示節點毫秒內生成重複，通過序列號表示唯一，12bit 每毫秒可產生 4096 個 ID

通過序列號 1 毫秒可以產生 4096 個不重複 ID，則 1 秒可以生成 4096 * 1000 = 409w ID

預設的雪花演算法是 64 bit，具體的長度可以自行配置。如果希望執行更久，增加時間戳的位數；如果需要支援更多節點部署，增加標識位長度；如果併發很高，增加序列號位數

總結：雪花演算法並不是一成不變的，可以根據系統內具體場景進行定製

雪花演算法適用場景

因為雪花演算法有序自增，保障了 MySQL 中 B+ Tree 索引結構插入高效能

所以，日常業務使用中，雪花演算法更多是被應用在資料庫的主鍵 ID 和業務關聯主鍵

雪花演算法生成 ID 重複問題

假設：一個訂單微服務，通過雪花演算法生成 ID，共部署三個節點，標識位一致

此時有 200 併發，均勻散佈三個節點，三個節點同一毫秒同一序列號下生成 ID，那麼就會產生重複 ID

通過上述假設場景，可以知道雪花演算法生成 ID 衝突存在一定的前提條件

服務通過叢集的方式部署，其中部分機器標識位一致
業務存在一定的併發量，沒有併發量無法觸發重複問題
生成 ID 的時機：同一毫秒下的序列號一致

標識位如何定義

如果能保證標識位不重複，那麼雪花 ID 也不會重複

通過上面的案例，知道了 ID 重複的必要條件。如果要避免服務內產生重複的 ID，那麼就需要從標識位上動文章

我們先看看開源框架中使用雪花演算法，如何定義標識位

Mybatis-Plus v3.4.2 雪花演算法實現類 Sequence，提供了兩種構造方法：無參構造，自動生成 dataCenterId 和 workerId；有參構造，建立 Sequence 時明確指定標識位

Hutool v5.7.9 參照了 Mybatis-Plus dataCenterId 和 workerId 生成方案，提供了預設實現

一起看下 Sequence 的建立預設無參構造，如何生成 dataCenterId 和 workerId

public static long getDataCenterId(long maxDatacenterId) {
    long id = 1L;
    final byte[] mac = NetUtil.getLocalHardwareAddress();
    if (null != mac) {
        id = ((0x000000FF & (long) mac[mac.length - 2])
                | (0x0000FF00 & (((long) mac[mac.length - 1]) << 8))) >> 6;
        id = id % (maxDatacenterId + 1);
    }

    return id;
}

入參 maxDatacenterId 是一個固定值，代表資料中心 ID 最大值，預設值 31

為什麼最大值要是 31？因為 5bit 的二進位制最大是 11111，對應十進位制數值 31

獲取 dataCenterId 時存在兩種情況，一種是網路介面為空，預設取 1L；另一種不為空，通過 Mac 地址獲取 dataCenterId

可以得知，dataCenterId 的取值與 Mac 地址有關

接下來再看看 workerId

public static long getWorkerId(long datacenterId, long maxWorkerId) {
    final StringBuilder mpid = new StringBuilder();
    mpid.append(datacenterId);
    try {
        mpid.append(RuntimeUtil.getPid());
    } catch (UtilException igonre) {
        //ignore
    }
    return (mpid.toString().hashCode() & 0xffff) % (maxWorkerId + 1);
}

入參 maxWorkderId 也是一個固定值，代表工作機器 ID 最大值，預設值 31；datacenterId 取自上述的 getDatacenterId 方法

name 變數值為 PID@IP，所以 name 需要根據 @ 分割並獲取下標 0，得到 PID

通過 MAC + PID 的 hashcode 獲取16個低位，進行運算，最終得到 workerId

分配標識位

Mybatis-Plus 標識位的獲取依賴 Mac 地址和程式 PID，雖然能做到儘量不重複，但仍有小几率

標識位如何定義才能不重複？有兩種方案：預分配和動態分配

預分配

應用上線前，統計當前服務的節點數，人工去申請標識位

這種方案，沒有程式碼開發量，在服務節點固定或者專案少可以使用，但是解決不了服務節點動態擴容性問題

動態分配

通過將標識位存放在 Redis、Zookeeper、MySQL 等中介軟體，在服務啟動的時候去請求標識位，請求後標識位更新為下一個可用的

通過存放標識位，延伸出一個問題：雪花演算法的 ID 是 服務內唯一還是全域性唯一

以 Redis 舉例，如果要做服務內唯一，存放標識位的 Redis 節點使用自己專案內的就可以；如果是全域性唯一，所有使用雪花演算法的應用，要用同一個 Redis 節點

兩者的區別僅是 不同的服務間是否公用 Redis。如果沒有全域性唯一的需求，最好使 ID 服務內唯一，因為這樣可以避免單點問題

服務的節點數超過 1024，則需要做額外的擴充套件；可以擴充套件 10 bit 標識位，或者選擇開源分散式 ID 框架

動態分配實現方案

Redis 儲存一個 Hash 結構 Key，包含兩個鍵值對：dataCenterId 和 workerId

在應用啟動時，通過 Lua 指令碼去 Redis 獲取標識位。dataCenterId 和 workerId 的獲取與自增在 Lua 指令碼中完成，呼叫返回後就是可用的標示位

具體 Lua 指令碼邏輯如下：

第一個服務節點在獲取時，Redis 可能是沒有 snowflake_work_id_key 這個 Hash 的，應該先判斷 Hash 是否存在，不存在初始化 Hash，dataCenterId、workerId 初始化為 0
如果 Hash 已存在，判斷 dataCenterId、workerId 是否等於最大值 31，滿足條件初始化 dataCenterId、workerId 設定為 0 返回
dataCenterId 和 workerId 的排列組合一共是 1024，在進行分配時，先分配 workerId
判斷 workerId 是否 != 31，條件成立對 workerId 自增，並返回；如果 workerId = 31，自增 dataCenterId 並將 workerId 設定為 0

dataCenterId、workerId 是一直向下推進的，總體形成一個環狀。通過 Lua 指令碼的原子性，保證 1024 節點下的雪花演算法生成不重複。如果標識位等於 1024，則從頭開始繼續迴圈推進

開源分散式 ID 框架

Leaf 和 Uid 都有實現雪花演算法，Leaf 額外提供了號段模式生成 ID

美團 Leaf：https://github.com/Meituan-Dianping/Leaf

百度 Uid：https://github.com/baidu/uid-generator

雪花演算法可以滿足大部分場景，如無必要，不建議引入開源方案增加系統複雜度

回顧總結

文章通過圖文並茂的方式幫助讀者梳理了一遍什麼是雪花演算法，以及如何解決雪花演算法生成 ID 衝突的問題

關於雪環演算法生成 ID 衝突問題，文中給了一種方案：分配標示位；通過分配雪花演算法的組成標識位，來達到預設 1024 節點下 ID 生成唯一

可以去看 Hutool 或者 Mybatis-Plus 雪花演算法的具體實現，幫助大家更好的理解

雪花演算法不是萬能的，並不能適用於所有場景。如果 ID 要求全域性唯一併且服務節點超出 1024 節點，可以選擇修改演算法本身的組成，即擴充套件標識位，或者選擇開源方案：LEAF、UID

創作不易，文章看完有幫助，點關注支援一下，祝好

什麼情況下會出現css阻塞？
2024-12-09
CSS
什麼情況下會出現js阻塞？
2024-12-09
JS
Twitter雪花演算法SnowFlake演算法的java實現
2019-02-26
演算法Java
Linux中什麼情況下會發生程式排程?
2022-10-14
Linux
為什麼docker 網段衝突會和宿主機衝突？原因分析和解決方案
2023-02-05
Docker
什麼情況下你能接受 996
2024-08-01
996
什麼情況下進行效能測試
2024-09-19
容器化，微服務，DevOps，什麼情況下會三位一體？
2018-08-07
微服務dev
Java類什麼情況下被初始化？
2019-07-28
Java
伺服器過載會出現什麼情況
2022-11-29
伺服器
分散式系統全域性唯一Id(SnowFlake)雪花演算法實現
2020-12-15
分散式演算法
什麼情況下不能使用最壞情況評估演算法的複雜度？
2020-07-23
演算法複雜度
vue什麼情況下需要用到this.$nextTick
2018-12-07
Vue
股票抄底絕招什麼情況下抄底合適
2022-03-03
什麼情況下需要搭建大資料平臺
2021-12-21
大資料
什麼是java序列化?什麼情況下需要序列化?
2024-11-05
Java
什麼是 IP 衝突以及如何解決？
2022-05-06
專案管理中的衝突是什麼？
2023-04-10
專案管理
分析SAN LUN Mapping出錯導致檔案系統共享衝突的情況
2019-11-05
APP
香港伺服器什麼情況下需要更新升級?
2023-05-08
伺服器
為什麼分散式限流會出現不均衡的情況？
2022-12-16
分散式
爬蟲代理為什麼會出現超時的情況？
2022-05-31
爬蟲
看不了帖子了，什麼情況
2025-01-07
分散式唯一ID生成方案選型！詳細解析雪花演算法Snowflake
2021-07-10
分散式演算法
拼多多開店需要了解哪些規則？在什麼情況下會被罰款？
2021-12-28
下一個成為IE會不會是Chrome，看看是什麼情況。
2020-12-28
Chrome
企業在什麼情況下引入分散式資料庫？
2022-07-19
分散式資料庫
爬蟲在什麼情況下才需要使用代理IP
2021-09-11
爬蟲
什麼情況！華為開源JDK！
2020-11-12
JDK
GreatSQL 中 Insert 慢是什麼情況？
2024-07-05
SQL
java面試一日一題：講下在什麼情況下會發生類載入
2021-04-23
Java面試
全域性唯一ID生成常見的幾種方式和twitter/snowflake（雪花演算法）解析
2018-09-18
演算法
直接登入資料庫使用drop table tablename;會是什麼情況？
2022-01-15
資料庫
如果列表元素li的兄弟元素為div，會產生什麼情況？
2024-12-10
雪花演算法
2024-06-07
演算法
oracle組合索引什麼情況下生效?
2024-04-02
Oracle索引
在什麼情況下可採取區塊鏈的流程圖 - TProphet
2019-11-10
區塊鏈流程圖
【知識分享】企業在什麼情況下需要做負載均衡
2023-02-11
負載