【深入 PHP】PHP7 陣列的底層實現

JeffreyC發表於2019-08-27

PHP 陣列具有的特性

PHP 的陣列是一種非常強大靈活的資料型別,在講它的底層實現之前,先看一下 PHP 的陣列都具有哪些特性。

  • 可以使用數字或字串作為陣列健值

$arr = [1 => 'ok', 'one' => 'hello'];
  • 可按順序讀取陣列

foreach($arr as $key => $value){
    echo $arr[$key];
}
  • 可隨機讀取陣列中的元素
$arr = [1 => 'ok', 'one' => 'hello', 'a' => 'world'];

echo $arr['one'];

echo current($arr);
  • 陣列的長度是可變的

$arr = [1, 2, 3];

$arr[] = 4;

array_push($arr, 5);

正是基於這些特性,我們可以使用 PHP 中的陣列輕易的實現集合、棧、列表、字典等多種資料結構。那麼這些特性在底層是如何實現的呢? 這就得從資料結構說起了。

資料結構

PHP 中的陣列實際上是一個有序對映。對映是一種把 values 關聯到 keys 的型別。

PHP 陣列的底層實現是雜湊表(也叫 hashTable ),雜湊表是根據鍵(Key)直接訪問記憶體儲存位置的資料結構,它的key - value 之間存在一個對映函式,可以根據 key 通過對映函式得到的雜湊值直接索引到對應的 value 值,無需通過關鍵字比較,在理想情況下,不考慮雜湊衝突,雜湊表的查詢效率是非常高的,時間複雜度是 O(1)。

從原始碼中我們可以看到 zend_array 的結構如下:

typedef struct _zend_array zend_array;
typedef struct _zend_array hashTable;

struct _zend_array {
    zend_refcounted_h gc;
    union {
        struct {
            ZEND_ENDIAN_LOHI_4(
                    zend_uchar    flags,
                    zend_uchar    nApplyCount,
                    zend_uchar    nIteratorsCount,
                    zend_uchar    reserve)
        } v;
        uint32_t flags;
    } u;
    uint32_t          nTableMask; // 雜湊值計算掩碼,等於nTableSize的負值(nTableMask = -nTableSize)
    Bucket           *arData;     // 儲存元素陣列,指向第一個Bucket
    uint32_t          nNumUsed;   // 已用Bucket數(含失效的 Bucket)
    uint32_t          nNumOfElements; // 雜湊表有效元素數
    uint32_t          nTableSize;     // 雜湊表總大小,為2的n次方(包括無效的元素)
    uint32_t          nInternalPointer; // 內部指標,用於遍歷
    zend_long         nNextFreeElement; // 下一個可用的數值索引,如:arr[] = 1;arr["a"] = 2;arr[] = 3;  則nNextFreeElement = 2;
    dtor_func_t       pDestructor;
};

該結構中的 Bucket 即儲存元素的陣列,arData 指向陣列的起始位置,使用對映函式對 key 值進行對映後可以得到偏移值,通過記憶體起始位置 + 偏移值即可在雜湊表中進行定址操作。

Bucket 的資料結構如下:

typedef struct _Bucket {
    zval              val; // 儲存的具體 value,這裡是一個 zval,而不是一個指標
    zend_ulong        h;   // 數字 key 或字串 key 的雜湊值。用於查詢時 key 的比較    
    zend_string      *key; // 當 key 值為字串時,指向該字串對應的 zend_string(使用數字索引時該值為 NULL),用於查詢時 key 的比較
} Bucket;

到這裡有個問題出現了:儲存在雜湊表裡的元素是無序的,PHP 陣列如何做到按順序讀取的呢?

答案是中間對映表,為了實現雜湊表的有序性,PHP 為其增加了一張中間對映表,該表是一個大小與 Bucket 相同的陣列,陣列中儲存整形資料,用於儲存元素實際儲存的 Value 在 Bucekt 中的下標。Bucekt 中的資料是有序的,而中間對映表中的資料是無序的。

而通過對映函式對映後的雜湊值要在中間對映表的區間內,這就對對映函式提出了要求。

對映函式

PHP7 陣列採用的對映方式:

nIndex = h | ht->nTableMask;

將 key 經過 time33 演算法生成的雜湊值 h 和 nTableMask 進行或運算即可得出對映表的下標,其中 nTableMask 數值為 nTableSize 的負數。並且由於 nTableSize 的值為 2 的冪次方,所以 nTableMask 二進位制位右側全部為 0,保證了 h | ht->nTableMask 的取值範圍會在 [-nTableSize, -1] 之間,正好在對映表的下標範圍內。另外,用按位或運算的方法和其他方法如取餘的方法相比運算速度較高,這個對映函式可以說設計的非常巧妙了。

雜湊(雜湊)衝突

不同鍵名的通過對映函式計算得到的雜湊值有可能相同,此時便發生了雜湊衝突。

對於雜湊衝突有以下 4 種常用方法:

1.將雜湊值放到相鄰的最近地址裡

2.換個雜湊函式重新計算雜湊值

3.將衝突的雜湊值統一放到另一個地方

4.在衝突位置構造一個單向連結串列,將雜湊值相同的元素放到相同槽位對應的連結串列中。這個方法叫鏈地址法,PHP 陣列就是採用這個方法解決雜湊衝突的問題。

其具體實現是:將衝突的 Bucket 串成連結串列,這樣中間對映表對映出的就不是某一個元素,而是一個 Bucket 連結串列,通過雜湊函式定位到對應的 Bucket 連結串列時,需要遍歷連結串列,逐個對比 Key 值,繼而找到目標元素。而每個 Bucket 之間的連結則是將原 value 的下標儲存到新 value 的 zval.u2.next 裡,新 value 放在當前位置上,從而形成一個單向連結串列。

舉個例子:

當我們訪問 $arr['key'] 的過程中,假設首先通過雜湊運算得出對映表下標為 -2 ,然後訪問對映表發現其內容指向 arData 陣列下標為 1 的元素。此時我們將該元素的 key 和要訪問的鍵名相比較,發現兩者並不相等,則該元素並非我們所想訪問的元素,而元素的 zval.u2.next 儲存的值正是另一個具有相同雜湊值的元素對應 arData 陣列的下標,所以我們可以不斷通過 zval.u2.next 的值遍歷直到找到鍵名相同的元素。

擴容

PHP 的陣列在底層實現了自動擴容機制,當插入一個元素且沒有空閒空間時,就會觸發自動擴容機制,擴容後再執行插入。

擴容的過程為:

如果已刪除元素所佔比例達到閾值,則會移除已被邏輯刪除的 Bucket,然後將後面的 Bucket 向前補上空缺的 Bucket,因為 Bucket 的下標發生了變動,所以還需要更改每個元素在中間對映表中儲存的實際下標值。

如果未達到閾值,PHP 則會申請一個大小是原陣列兩倍的新陣列,並將舊陣列中的資料複製到新陣列中,因為陣列長度發生了改變,所以 key-value 的對映關係需要重新計算,這個步驟為重建索引。

重建雜湊表

在刪除某一個陣列元素時,會先使用標誌位對該元素進行邏輯刪除,即在刪除 value 時只是將 value 的 type 設定為 IS_UNDEF,而不會立即刪除該元素所在的 Bucket,因為如果每次刪除元素立刻刪除 Bucket 的話,每次都需要進行排列操作,會造成不必要的效能開銷。

所以,當刪除元素達到一定數量或擴容後都需要重建雜湊表,即移除被標記為刪除的 value。因為 value 在 Bucket 位置移動了或雜湊陣列 nTableSize 變化了導致 key 與 value 的對映關係改變,重建過程就是遍歷 Bucket 陣列中的 value,然後重新計算對映值更新到雜湊表。


關於 PHP7 的陣列底層實現就總結這麼些了,因為水平有限也無法研究的十分詳盡清楚,如果有疑問或者不足之處歡迎提出~~

參考資料

《PHP7 的底層設計與原始碼實現》

php7-internal

You can not connect the dots looking forward, you can only connect them looking backwards.

相關文章