JVM 堆中物件分配、佈局和訪問

低吟不作語發表於2020-12-02

本文摘自深入理解 Java 虛擬機器第三版


物件的建立

Java 是一門物件導向的語言,Java 程式執行過程中無時無刻都有物件被建立出來。從語言層面看,建立物件只是一個 new 關鍵字而已,而在虛擬機器中,物件(僅限於普通 Java 物件,不包括陣列和 Class 物件等)的建立又是怎麼一個過程呢?

以 Hotspot 虛擬機器為例,當虛擬機器遇到一條位元組碼指令,首先會檢查這個指令的引數是否能在常量池中定位到一個符號引用,並檢查這個符號引用代表的類是否已被載入、解析和初始化,如果沒有,那麼會先執行對應的類載入過程

類載入檢查通過後,虛擬機器將為新生物件分配記憶體。物件所需記憶體的大小在類載入過程中即可完全確定,為物件分配空間的任務實際上等同於把一塊確定大小的記憶體區域從 Java 堆中劃分出來,並分配給物件。劃分記憶體的方式主要有兩種:

  • 指標碰撞法

    即假設 Java 堆中記憶體是絕對規整的,已被使用的記憶體放在一邊,空閒的記憶體放在另一邊,中間有一個指標作為分界點的指示器,那麼當需要分配記憶體時,只需要將指標向空閒空間的方向挪動一段與物件大小相等的距離即可

  • 空閒列表法

    這個情況就是 Java 堆中記憶體並不是規整的,已使用記憶體和空閒記憶體相互交錯在一起。此時虛擬機器必須維護一個列表,記錄哪些記憶體塊可用,分配時從列表中找出一塊足夠大的空間劃分給物件例項,並更新列表記錄

由此可見,選擇哪種分配方式由 Java 堆是否規整決定,而 Java 堆是否規整又由所採用的垃圾收集器是否帶有空間壓縮整理的能力決定

除了如何劃分可用空間以外,還有一個需要考慮的問題:物件建立在虛擬機器中是非常頻繁的行為,即使僅僅只是修改指標的位置,在併發情況下也並不是安全的,有可能出現正在給物件 A 分配記憶體,指標還沒來得及修改,物件 B 又同時使用原來的指標來分配記憶體。解決該問題的方法有兩個:一個是對分配記憶體空間的動作片進行同步處理,實際上虛擬機器是採用 CAS 配上失敗重試機制來保證更新操作的原子性的;另一種是把記憶體分配的動作按照執行緒劃分到不同的空間之中進行,即每個執行緒在 Java 堆中預先分配一小塊記憶體,稱為本地執行緒分配緩衝(Thread Local Allocation Buffer),簡稱 TLAB,哪個執行緒要分配記憶體,就在哪個執行緒的本地緩衝區中分配,只有本地緩衝區用完了,分配新的緩衝區時才需要同步鎖定。虛擬機器是否使用 TLAB,可以通過 -XX:+/UseTLAB 引數來設定

記憶體分配完成後,虛擬機器必須先將分配到的記憶體空間(但不包括物件頭)都初始化為零值,如果使用了 TLAB 的話,這項工作也可以提前在 TLAB 分配時順便進行。這步操作保證了物件的例項欄位在 Java 程式碼中可以不賦初值就直接使用,使程式可以訪問到這些欄位的資料型別對應的零值

接下來,Java 虛擬機器還需要對物件的物件頭(Object Header)進行設定,物件頭存放一些資訊如這個物件是哪個物件的例項、如何找到類的後設資料資訊、物件的雜湊碼、物件的 GC 分代年齡等

上面的工作完成之後,從虛擬機器的視角來看,一個新的物件已經誕生了,而從 Java 程式的角度來看,物件的建立才剛剛開始,物件的建構函式,即 Class 檔案的 <init> 方法尚未執行,所有的欄位都是預設的零值。new 指令之後會接著執行 <init> 方法,對物件進行初始化,這樣一個真正可用的物件才算完全構造出來


物件的記憶體佈局

在 HotSpot 虛擬機器中,物件在堆記憶體中的儲存佈局可以劃分為三個部分:物件頭(Header)、例項資料(Instance Data)和對齊填充(Padding)

1. 物件頭

Hotspot 虛擬機器物件的物件頭部分包括兩類資訊,第一類是用於儲存物件自身的執行時資料,如雜湊碼、GC 分代年齡、鎖狀態標誌、執行緒持有鎖、偏向執行緒 ID、編向時間戳等。這部分資料的長度在 32 位和 64 位虛擬機器中分別為 32 個位元和 64 個位元,官方稱之為 “Mark Word”

但實際上,物件需要儲存待執行時資料很多,已經超過了 32、64 位 Bitmap 結構所能記錄的最大限度,因此 Mark Word 被設計成一個有著動態定義的資料結構,以便儘可能多的複用自己的儲存空間,例如在 32 位 JVM 中是這樣儲存的:

物件頭的另一個部分是型別指標,即物件指向它的型別後設資料的指標,Java 虛擬機器通過這個指標來確定這個物件是屬於哪個類的例項。然而,並不是所有的虛擬機器都會在物件頭上保留型別指標,換句話說,查詢物件的後設資料資訊不一定要經過物件本身。此外,如果物件是個陣列,那麼在物件頭中還必須有一塊用於記錄陣列長度的資料

2. 例項資料

例項資料部分是物件真正儲存的有效資訊,即我們在程式碼裡面所定義的各種型別的欄位內容,無論是從父類繼承下來的,還是在子類中定義的欄位都必須記錄起來

3. 對齊填充

對齊填充並不是必然存在的,它僅僅起著佔位符的作用,因為 Hotspot 虛擬機器的自動記憶體管理機制要求物件的大小必須是 8 位元組的整數倍。因此,如果物件例項資料部分沒有對齊的話,就需要通過對齊填充來補全


物件的訪問定位

Java 程式會通過棧上的 reference 資料來操作堆上的具體物件。在 Java 虛擬機器規範中,只是規定 reference 型別是一個指向物件的引用,並沒有定義要用什麼方式實現。因此物件訪問方式是由虛擬機器自主實現的,主流的訪問方式主要有使用控制程式碼和直接指標兩種:

  • 控制程式碼訪問

    Java 堆中會劃分出一塊記憶體來作為控制程式碼池,reference 中儲存的就是物件的控制程式碼地址,而控制程式碼包含了物件例項資料和型別資料各自具體的地址資訊

  • 直接指標

    reference 中儲存的就是物件地址,所以如果只是訪問物件本身的話,可以避免多次開銷。另外,如果使用直接指標訪問,Java 堆中物件的記憶體佈局就必須考慮如何放置用於訪問型別資料的相關資訊

兩種方式各有千秋,使用控制程式碼的好處就是 reference 中儲存的是穩定的控制程式碼地址,如果物件被移動(例如進行垃圾收集),那麼只會改變控制程式碼中例項資料指標,而 reference 本身不需要修改。而使用直接指標的好處就是速度更快,節省時間開銷。在 HotSpot 虛擬機器中主要使用直接指標方式進行物件訪問


相關文章