字串 Intern 機制

劉志軍發表於2017-08-12

字串在 Python 中是最簡單也是最常用的資料型別之一,在 CPython 中字串的實現原理使用了一種叫做 Intern(字串駐留)的技術來提高字串效率。究竟什麼是 intern 機制,這種機制又是通過什麼方式來提高字串效率的呢?希望這篇文章能夠拋磚引玉。

先來看一段程式碼:

>>> s3 = "hello!"
>>> s4 = "hello!"
>>> s3 is s4
False
>>> id(s3)
80325968L
>>> id(s4)
80326048L複製程式碼

s3 和 s4 雖然值是一樣的,但確確實實是兩個不同的字串物件,Python 會為它們倆各自分配一段記憶體空間,假設程式中存在大量值相同的字串,系統就不得不為每個字串重複地分配記憶體空間,顯然,對系統來說是一種無謂的資源浪費。為了解決這種問題,Python 引入了 intern 機制。

再來看:

>>> s3 = intern('hello!')
>>> s4 = intern('hello!')
>>> s3 is s4
True
>>> id(s3)
80325968L
>>> id(s4)
80325968L複製程式碼

intern 是 Python 中的一個內建函式,該函式的作用就是對字串進行 intern 機制處理,處理後返回字串物件。我們發現但凡是值相同的字串經過 intern 機制處理之後,返回的都是同一個字串物件,這種方式在處理大資料的時候無疑能節省更多的記憶體空間,系統無需為相同的字串重複分配記憶體,對於值相同的字串共用一個物件即可。

其實,實現 Intern 機制的方式非常簡單,就是通過維護一個字串儲蓄池,這個池子是一個字典結構,如果字串已經存在於池子中了就不再去建立新的字串,直接返回之前建立好的字串物件,如果之前還沒有加入到該池子中,則先構造一個字串物件,並把這個物件加入到池子中去,方便下一次獲取,用虛擬碼就可以描述為:

intern_pool = {}
def intern(s):

    if s in intern_pool:
        return intern_pool[s]
    else:
        obj = PyStringObject(s)
        intern_pool[s] = obj
        return obj複製程式碼

在主流物件導向的程式語言中intern 機制對於處理字串已經成為一種標配,通過 intern 機制可以提高字串的處理效率,當然,直譯器內部很對 intern 機制的使用策略是有考究的,有些場景會自動使用 intern ,有些地方需要通過手動方式才能啟動。比如:

>>> s1 = "hello"
>>> s2 = "hello"
>>> s1 is s2
True
>>> id(s1)
72320704L
>>> id(s2)
72320704L複製程式碼

這段程式碼就是 Python自動使用了intern機制的結果。

相關文章