【有點意思】UUID演算法分析

qq_36821448發表於2018-03-28

在具體討論之前,本文先釐清UUID(Universally Unique IDentifier)與GUID(Globally Unique IDentifier)的關係。

在分散式、網路、單機環境下,為了能夠使用具有某種形式的ID唯一標識系統中的任一元素,這樣的ID可以不依賴中心認證自動生成,於是UUID就誕生了。

UUID標準的歷史沿革和具體實現在RFC 4122ITU-T Rec. X.667ISO/IEC 9834-8:2008中均有詳細描述。ITU和ISO採用的標準和RFC 4122都是在UUID的早期版本基礎上完成,各版本之間具有一致性和相容性。

因為不能保證UUID的唯一性,ITU和ISO針對UUID的使用都有免責宣告

GUID一般是指Microsoft對於UUID標準的實現,UUID的實現則多見於其他系統(*NIX、MAC OS等)中。在瞭解了這一區別後,本文將統一使用UUID來指代對應的原理、演算法及實現。

文中關於UUID的討論全部基於RFC 4122和ITU-T Rec.X.667以及OSF、IETF、ITU-T、ISO、FIPS的各種標準文件。而UUID的細節(如結構、表示、演算法、實現等)均以ITU-TRec. X667為唯一藍本,文中“本標準”即指代該藍本。

o 介紹

UUID是長度為16-byte(128-bit)的ID,一般以形如f81d4fae-7dec-11d0-a765-00a0c91e6bf6的字串作為URN(Uniform Resource Name,統一資源名稱)。

o 動機

無須中心認證,自動生成,支援一臺機器每秒生成10M次(100納秒級,其隱含原因是指能夠區分的最小時間單位為100ns,將時間作為因子時,連續生成兩個UUID的時間至少要間隔100ns)。方便存取、分配、排序、查詢。

o 結構


   76543210765432107654321076543210
   + – - – = – - – = – - – = – - – +
15 |            TimeLow            | 12
11 |    TimeMid    |   Version..   |  8
7  |Vari.. |Clock..|     Node      |  4
3  |             Node              |  0
   + – - – = – - – = – - – = – - – +
15 – 12: TimeLow 時間值的低位
11 – 10: TimeMid 時間值的中位
09 – 08: VersionAndTimeHigh 4位版本號和時間值的高位
07: VariantAndClockSeqHigh 2位變體(ITU-T)和時鐘序列高位
06: ClockSeqLow 時鐘序列低位
05 – 00: Node 結點
hexOctet = hexDigit hexDigit
hexDigit =
“0″ / “1″ / “2″ / “3″ / “4″ / “5″ / “6″ / “7″ / “8″ / “9″ /
“a” / “b” / “c” / “d” / “e” / “f” /
“A” / “B” / “C” / “D” / “E” / “F”
UUID =
TimeLow
“-” TimeMid
“-” VersionAndTimeHigh
“-” VariantAndClockSeqHigh ClockSeqLow
“-” Node

UUID由上述6個域構成,每個域編碼為若干位元組,並以16進位制數表示這128位的UUID,相鄰域以減號“-”分隔(VariantAndClockSeqHigh和ClockSeqLow對應的兩個位元組例外,如上所示)。該結構中包含版本(Version)、變體(Variant)、時間(Time)、時鐘序列(Clock Sequence)、節點(Note)資訊(以無符號整型值表示)。

o 合法性

除判斷variant位設定是否正確、基於時間生成的UUID時間值是否為未經分配的將來時間外,實際應用中沒有其他機制可以判定UUID是否合法。

o 變體

Variant位是UUID第7位元組(VariantAndClockSeqHigh)的最高3位,

7 6 5  Description
0 – –  NCS向後相容
1 0 –  本標準
1 1 0  Microsoft向後相容
1 1 1  ITU-T Rec. X.667保留

o 版本

UUID的生成有時間、名稱、隨機數三種策略,以第9位元組(VersionAndTimeHigh)的最高4位表示。

目前UUID定義有5個版本:

7 6 5 4  Ver  Description
0 0 0 1  1    基於時間的版本(本標準)
0 0 0 0  2    使用嵌入式POSIX(DCE安全版本)
0 0 1 1  3    使用MD5雜湊的基於名稱的版本(本標準)
0 1 0 0  4    基於隨機數的版本(本標準)
0 1 0 1  5    使用SHA-1的基於名稱的版本(本標準)

o 時間

時間是一個60位的整型值(除4位版本號外的前8位元組),對應UTC(格林尼治時間1582年10月15日午夜始)的100ns時間間隔計數。

對於ver 4和5,該值分別對應一個隨機數和一個全域性唯一的名稱。

o 時鐘序列

對基於時間的UUID版本,時間序列用於避免因時間向後設定或節點值改變可能造成的UUID重複,對基於名稱或隨機數的版本同樣有用:目的都是為了防止UUID重複。

如果前一時鐘序列已知,通過自增實現時鐘序列值的改變;否則,通過密碼學(偽)隨機數設定新的時鐘序列值。

o 節點

對基於時間的UUID版本,節點由48位的單播MAC地址構成。對於沒有MAC地址的系統,節點值為一個密碼學(偽)隨機數(為防止與MAC地址發生碰撞,需設定多播位)。

o 基於時間的UUID生成演算法

o 確定UTC時間(60位 Time)和時間序列值(14位 ClockSequence);

o 設定TimeLow(對應Time的31-0位);

o 設定TimeMid(對應Time的47-32位);

o 設定VersionAndTimeHigh(4位版本號及Time的59-48位);

o 設定VariantAndClockSeqHigh(變體位及對應ClockSequence的13-8位);

o 設定ClockSeqLow(對應ClockSequence的7-0位);

o 設定Node(對應48位MAC地址)。

o 基於名稱的UUID生成演算法

o 針對相應的名稱空間(如DNS、URL、OID等)分配一個UUID作為所有UUID的名稱空間標識;

o 將名稱轉換為位元組數列;

o 使用MD5或SHA-1演算法對與名稱關聯的名稱空間標識進行計算,產生16位元組雜湊結果;

o 設定TimeLow(對應雜湊值的3-0位元組);

o 設定TimeMid(對應雜湊值的5-4位元組);

o 設定VersionAndTimeHigh(對應雜湊值的7-6位元組),以相應版本號重寫對應位(第9位元組的高4位);

o 設定VariantAndClockSeqHigh(對應雜湊值的第8位元組),重寫變體對應位(第7位元組的高2位,本標準對應值為10);

o 設定ClockSeqLow(對應雜湊值的第9位元組);

o 設定Node(對應雜湊值的15-10位元組)。

由於MD5碰撞問題,MD5只用於向後相容的UUID生成,不再被推薦使用。由於SHA-1雜湊結果為160位(20位元組),本演算法中,需要將FIPSPUB 180-2中的SHA-1演算法的雜湊值位元組順序反轉(位元組內順序不變),UUID使用其15-0位元組,19-16位元組被丟棄。

o 基於隨機數的UUID生成演算法

o 設定VariantAndClockSeqHigh的變體位值為10;

o 設定VersionAndTimeHigh的4位版本號;

o 設定剩餘位為隨機值。

本文中討論的密碼學隨機數,主要根據系統可以提供的資訊(記憶體、硬碟、控制程式碼、程式執行的執行緒、程式、控制程式碼、堆疊等),利用SHA-1等雜湊演算法得到。

其他關於密碼學隨機數的描述,我曾在這篇文章中簡單提到。

具體演算法實現可以參考文件和開原始碼。

相關文章