【深入Java虛擬機器】之二:Class類檔案結構

yangxi_001發表於2014-01-14

平臺無關性

    Java是與平臺無關的語言,這得益於Java原始碼編譯後生成的儲存位元組碼的檔案,即Class檔案,以及Java虛擬機器的實現。不僅使用Java編譯器可以把Java程式碼編譯成儲存位元組碼的Class檔案,使用JRuby等其他語言的編譯器也可以把程式程式碼編譯成Class檔案,虛擬機器並不關心Class的來源是什麼語言,只要它符合一定的結構,就可以在Java中執行。Java語言中的各種變數、關鍵字和運算子的語義最終都是由多條位元組碼命令組合而成的,因此位元組碼命令所能提供的語義描述能力肯定會比Java語言本身更強大,這便為其他語言實現一些有別於Java的語言特性提供了基礎,而且這也正是在類載入時要進行安全驗證的原因。

 

類檔案結構

    Class檔案是一組以8位位元組為基礎單位的二進位制流,各個資料專案嚴格按照順序緊湊地排列在Class檔案中,中間沒有新增任何分隔符,這使得整個Class檔案中儲存的內容幾乎全部都是程式執行的必要資料。根據Java虛擬機器規範的規定,Class檔案格式採用一種類似於C語言結構體的偽結構來儲存,這種偽結構中只有兩種資料型別:無符號數和表。無符號數屬於基本資料型別,以u1、u2、u4、u8來分別代表1、2、4、8個位元組的無符號數。表是由多個無符號數或其他表作為資料項構成的符合資料型別,所有的表都習慣性地以“_info”結尾。

    整個Class檔案本質上就是一張表,它由如下所示的資料項構成。

    從表中可以看出,無論是無符號數還是表,當需要描述同一型別但數量不定的多個資料時,經常會使用一個前置的容量計數器加若干個連續的該資料項的形式,稱這一系列連續的摸一個型別的資料為某一型別的集合,比如,fields_count個field_info表資料構成了欄位表集合。這裡需要說明的是:Class檔案中的資料項,都是嚴格按照上表中的順序和數量被嚴格限定的,每個位元組代表的含義,長度,先後順序等都不允許改變。

    下表列出了Class檔案中各個資料項的具體含義:

    從表中可以看出,無論是無符號數還是表,當需要描述同一型別但數量不定的多個資料時,經常會在其前面使用一個前置的容量計數器來記錄其數量,而便跟著若干個連續的資料項,稱這一系列連續的某一型別的資料為某一型別的集合,如:fields_count個field_info表資料便組成了方法表集合。這裡需要注意的是:Class檔案中各資料項是按照上表的順序和數量被嚴格限定的,每個位元組代表的含義、長度、先後順序都不允許改變。

   magic與version

    每個Class檔案的頭4個位元組稱為魔數(magic),它的唯一作用是判斷該檔案是否為一個能被虛擬機器接受的Class檔案。它的值固定為0xCAFEBABE。緊接著magic的4個位元組儲存的是Class檔案的次版本號和主版本號,高版本的JDK能向下相容低版本的Class檔案,但不能執行更高版本的Class檔案。

   constant_pool

    major_version之後是常量池(constant_pool)的入口,它是Class檔案中與其他專案關聯最多的資料型別,也是佔用Class檔案空間最大的資料專案之一。

    常量池中主要存放兩大類常量:字面量和符號引用。字面量比較接近於Java層面的常量概念,如文字字串、被宣告為final的常量值等。而符號引用總結起來則包括了下面三類常量:

  • 類和介面的全限定名(即帶有包名的Class名,如:org.lxh.test.TestClass)
  • 欄位的名稱和描述符(private、static等描述符)
  • 方法的名稱和描述符(private、static等描述符)

    虛擬機器在載入Class檔案時才會進行動態連線,也就是說,Class檔案中不會儲存各個方法和欄位的最終記憶體佈局資訊,因此,這些欄位和方法的符號引用不經過轉換是無法直接被虛擬機器使用的。當虛擬機器執行時,需要從常量池中獲得對應的符號引用,再在類載入過程中的解析階段將其替換為直接引用,並翻譯到具體的記憶體地址中。

    這裡說明下符號引用和直接引用的區別與關聯:

  • 符號引用:符號引用以一組符號來描述所引用的目標,符號可以是任何形式的字面量,只要使用時能無歧義地定位到目標即可。符號引用與虛擬機器實現的記憶體佈局無關,引用的目標並不一定已經載入到了記憶體中。
  • 直接引用:直接引用可以是直接指向目標的指標、相對偏移量或是一個能間接定位到目標的控制程式碼。直接引用是與虛擬機器實現的記憶體佈局相關的,同一個符號引用在不同虛擬機器例項上翻譯出來的直接引用一般不會相同。如果有了直接引用,那說明引用的目標必定已經存在於記憶體之中了。

    常量池中的每一項常量都是一個表,共有11種(JDK1.7之前)結構各不相同的表結構資料,沒中表開始的第一位是一個u1型別的標誌位(1-12,缺少2),代表當前這個常量屬於的常量型別。11種常量型別所代表的具體含義如下表所示:

    這11種常量型別各自均有自己的結構。在CONSTANT_Class_info型常量的結構中有一項name_index屬性,該常屬性中存放一個索引值,指向常量池中一個CONSTANT_Utf8_info型別的常量,該常量中即儲存了該類的全限定名字串。而CONSTANT_Fieldref_info、CONSTANT_Methodref_info、CONSTANT_InterfaceMethodref_info型常量的結構中都有一項index屬性,存放該欄位或方法所屬的類或介面的描述符CONSTANT_Class_info的索引項。另外,最終儲存的諸如Class名、欄位名、方法名、修飾符等字串都是一個CONSTANT_Utf8_info型別的常量,也因此,Java中方法和欄位名的最大長度也即是CONSTANT_Utf8_info型常量的最大長度,在CONSTANT_Utf8_info型常量的結構中有一項length屬性,它是u2型別的,即佔用2個位元組,那麼它的最大的length即為65535。因此,Java程式中如果定義了超過64KB英文字元的變數或方法名,將會無法編譯。

   下表給出了常量池中11種資料型別的結構:

    常量

專案

  型別  

描述

 

CONSTANT_Utf8_info

tag

u1

值為1

length

u2

UF-8編碼的字串佔用的位元組數

bytes

u1

長度為lengthUTF-8編碼的字串

 

CONSTANT_Integer_info

tag

u1

值為3

bytes

u4

按照高位在前儲存的int

 

CONSTANT_Float_info

tag

u1

值為4

bytes

u4

按照高位在前儲存的float

 

CONSTANT_Long_info

tag

u1

值為5

bytes

u8

按照高位在前儲存的long

 

CONSTANT_Double_info

tag

u1

值為6

bytes

u8

按照高位在前儲存的double

 

CONSTANT_Class_info

tag

u1

值為7

index

u2

指向全限定名常量項的索引

 

CONSTANT_String_info

tag

u1

值為8

index

u2

指向字串字面量的索引

 

CONSTANT_Fieldref_info

tag

u1

值為9

index

u2

指向宣告欄位的類或介面描述符CONSTANT_Class_info的索引項

index

u2

指向欄位名稱及型別描述符CONSTANT_NameAndType_info的索引項

 

CONSTANT_Methodref_info

tag

u1

值為10

index

u2

指向宣告方法的類描述符CONSTANT_Class_info的索引項

index

u2

指向方法名稱及型別描述符CONSTANT_NameAndType_info的索引項

 

CONSTANT_InrerfaceMethodref_info

tag

u1

值為11

index

u2

指向宣告方法的介面描述符CONSTANT_Class_info的索引項

index

u2

指向方法名稱及型別描述符CONSTANT_NameAndType_info的索引項

 

CONSTANT_NameAndType_info

tag

u1

值為12

index

u2

指向欄位或方法名稱常量專案的索引

index

u2

指向該欄位或方法描述符常量項的索引

    access_flag

    在常量池結束之後,緊接著的2個位元組代表訪問標誌(access_flag),這個標誌用於識別一些類或介面層次的訪問資訊,包括:這個Class是類還是介面,是否定義為public型別,abstract型別,如果是類的話,是否宣告為final,等等。每種訪問資訊都由一個十六進位制的標誌值表示,如果同時具有多種訪問資訊,則得到的標誌值為這幾種訪問資訊的標誌值的邏輯或。

   this_class、super_class、interfaces

    類索引(this_class)和父類索引(super_class)都是一個u2型別的資料,而介面索引集合(interfaces)則是一組u2型別的資料集合,Class檔案中由這三項資料來確定這個類的繼承關係。類索引、父類索引和介面索引集合都按照順序排列在訪問標誌之後,類索引和父類索引兩個u2型別的索引值表示,它們各自指向一個型別為COMNSTANT_Class_info的類描述符常量,通過該常量中的索引值找到定義在COMNSTANT_Utf8_info型別的常量中的全限定名字串。而介面索引集合就用來描述這個類實現了哪些介面,這些被實現的介面將按implements語句(如果這個類本身是個介面,則應當是extend語句)後的介面順序從左到右排列在介面的索引集合中。

    fields

    欄位表(field_info)用於描述介面或類中宣告的變數。欄位包括了類級變數或例項級變數,但不包括在方法內宣告的變數。欄位的名字、資料型別、修飾符等都是無法固定的,只能引用常量池中的常量來描述。下面是欄位表的最種格式:

 

    其中的access_flags與類中的access_flagsfei類似,是表示資料型別的修飾符,如public、static、volatile等。後面的name_index和descriptor_index都是對常量池的引用,分別代表欄位的簡單名稱及欄位和方法的描述符。這裡簡單解釋下“簡單名稱”、“描述符”和“全限定名”這三種特殊字串的概念。

    前面有所提及,全限定名即指一個事物的完整的名稱,如在org.lxh.test包下的TestClass類的全限定名為:org/lxh/test/TestClass,即把包名中的“.”改為“/”,為了使連續的多個全限定名之間不產生混淆,在使用時最後一般會加入一個“,”來表示全限定名結束。簡單名稱則是指沒有型別或引數修飾的方法或欄位名稱,如果一個類中有這樣一個方法boolean  get(int name)和一個變數private final static int m,則他們的簡單名稱則分別為get()和m。

    而描述符的作用則是用來描述欄位的資料型別、方法的引數列表(包括數量、型別以及順序等)和返回值的。根據描述符規則,詳細的描述符標示字的含義如下表所示:

 

    對於陣列型別,每一維度將使用一個前置的“[”字元來描述,如一個整數陣列“int [][]”將為記錄為“[[I”,而一個String型別的陣列“String[]”將被記錄為“[Ljava/lang/String”

    用方法描述符描述方法時,按照先引數後返回值的順序描述,引數要按照嚴格的順序放在一組小括號內,如方法 int getIndex(String name,char[] tgc,int start,int end,char target)的描述符為“(Ljava/lang/String[CIIC)I”。

    欄位表包含的固定資料專案到descriptor_index為止就結束了,但是在它之後還緊跟著一個屬性表集合用於儲存一些額外的資訊。比如,如果在類中有如下欄位的宣告:staticfinalint m = 2;那就可能會存在一項名為ConstantValue的屬性,它指向常量2。關於attribute_info的詳細內容,在後面關於屬性表的專案中會有詳細介紹。

    最後需要注意一點:欄位表集合中不會列出從父類或介面中繼承而來的欄位,但有可能列出原本Java程式碼中不存在的欄位。比如在內部類中為了保持對外部類的訪問性,會自動新增指向外部類例項的欄位。

    methods

    方法表(method_info)的結構與屬性表的結構相同,不過多贅述。方法裡的Java程式碼,經過編譯器編譯成位元組碼指令後,存放在方法屬性表集合中一個名為“Code”的屬性裡,關於屬性表的專案,同樣會在後面詳細介紹。

    與欄位表集合相對應,如果父類方法在子類中沒有被覆寫,方法表集合中就不會出現來自父類的方法資訊。但同樣,有可能會出現由編譯器自動新增的方法,最典型的便是類構造器“<clinit>”方法和例項構造器“<init>”方法。

    在Java語言中,要過載一個方法,除了要與原方法具有相同的簡單名稱外,還要求必須擁有一個與原方法不同的特徵簽名,特徵簽名就是一個方法中各個引數在常量池中的欄位符號引用的集合,也就是因為返回值不會包含在特徵簽名之中,因此Java語言裡無法僅僅依靠返回值的不同來對一個已有方法進行過載。

    attributes

    屬性表(attribute_info)在前面已經出現過多系,在Class檔案、欄位表、方法表中都可以攜帶自己的屬性表集合,以用於描述某些場景專有的資訊。

    屬性表集合的限制沒有那麼嚴格,不再要求各個屬性表具有嚴格的順序,並且只要不與已有的屬性名重複,任何人實現的編譯器都可以向屬性表中寫入自己定義的屬性資訊,但Java虛擬機器執行時會忽略掉它不認識的屬性。Java虛擬機器規範中預定義了9項虛擬機器應當能識別的屬性(JDK1.5後又增加了一些新的特性,因此不止下面9項,但下面9項是最基本也是必要,出現頻率最高的),如下表所示:

    對於每個屬性,它的名稱都需要從常量池中引用一個CONSTANT_Utf8_info型別的常量來表示,每個屬性值的結構是完全可以自定義的,只需說明屬性值所佔用的位數長度即可。一個符合規則的屬性表至少應具有“attribute_name_info”、“attribute_length”和至少一項資訊屬性。

    1)Code屬性

    前面已經說過,Java程式方法體中的程式碼講過Javac編譯後,生成的位元組碼指令便會儲存在Code屬性中,但並非所有的方法表都必須存在這個屬性,比如介面或抽象類中的方法就不存在Code屬性。如果方法表有Code屬性存在,那麼它的結構將如下表所示:

    attribute_name_index是一項指向CONSTANT_Utf8_info型常量的索引,常量值固定為“Code”,它代表了該屬性的名稱。attribute_length指示了屬性值的長度,由於屬性名稱索引與屬性長度一共是6個位元組,所以屬性值的長度固定為整個屬性表的長度減去6個位元組。

    max_stack代表了運算元棧深度的最大值,max_locals代表了區域性變數表所需的儲存空間,它的單位是Slot,並不是在方法中用到了多少個區域性變數,就把這些區域性變數所佔Slot之和作為max_locals的值,原因是區域性變數表中的Slot可以重用。

    code_length和code用來儲存Java源程式編譯後生成的位元組碼指令。code用於儲存位元組碼指令的一系列位元組流,它是u1型別的單位元組,因此取值範圍為0x00到0xFF,那麼一共可以表達256條指令,目前,Java虛擬機器規範已經定義了其中200條編碼值對應的指令含義。code_length雖然是一個u4型別的長度值,理論上可以達到2^32-1,但是虛擬機器規範中限制了一個方法不允許超過65535條位元組碼指令,如果超過了這個限制,Javac編譯器將會拒絕編譯。

    位元組碼指令之後是這個方法的顯式異常處理表集合(exception_table),它對於Code屬性來說並不是必須存在的。它的格式如下表所示:

    它包含四個欄位,這些欄位的含義為:如果位元組碼從第start_pc行到第end_pc行之間(不含end_pc行)出現了型別為catch_type或其子類的異常(catch_type為指向一個CONSTANT_Class_info型常量的索引),則轉到第handler_pc行繼續處理,當catch_pc的值為0時,代表人和的異常情況都要轉到handler_pc處進行處理。異常表實際上是Java程式碼的一部分,編譯器使用異常表而不是簡單的跳轉命令來實現Java異常即finally處理機制,也因此,finally中的內容會在try或catch中的return語句之前執行,並且在try或catch跳轉到finally之前,會將其內部需要返回的變數的值複製一份副本到最後一個本地表量表的Slot中,也因此便有了http://blog.csdn.net/ns_code/article/details/17485221這篇文章中出現的情況。

    Code屬性是Class檔案中最重要的一個屬性,如果把一個Java程式中的資訊分為程式碼和後設資料兩部分,那麼在整個Class檔案裡,Code屬性用於描述程式碼,所有的其他資料專案都用於描述後設資料。

    2)Exception屬性

    這裡的Exception屬性的作用是列舉出方法中可能丟擲的受查異常,也就是方法描述時在throws關鍵字後面列舉的異常。它的結構很簡單,只有attribute_name_index、attribute_length、number_of_exceptions、exception_index_table四項,從字面上便很容易理解,這裡不再詳述。

    3)LineNumberTable屬性

    它用於描述Java原始碼行號與位元組碼行號之間的對應關係。

    4)LocalVariableTable屬性

    它用於描述棧幀中區域性變數表中的變數與Java原始碼中定義的變數之間的對應關係。

    5)SourceFile屬性

    它用於記錄生成這個Class檔案的原始碼檔名稱。

    6)ConstantValue屬性

    ConstantValue屬性的作用是通知虛擬機器自動為靜態變數賦值,只有被static修飾的變數才可以使用這項屬性。在Java中,對非static型別的變數(也就是例項變數)的賦值是在例項構造器<init>方法中進行的;而對於類變數(static變數),則有兩種方式可以選擇:在類構造其中賦值,或使用ConstantValue屬性賦值。

    目前Sun Javac編譯器的選擇是:如果同時使用final和static修飾一個變數(即全域性常量),並且這個變數的資料型別是基本型別或String的話,就生成ConstantValue屬性來進行初始化(編譯時Javac將會為該常量生成ConstantValue屬性,在類載入的準備階段虛擬機器便會根據ConstantValue為常量設定相應的值),如果該變數沒有被final修飾,或者並非基本型別及字串,則選擇在<clinit>方法中進行初始化。

    雖然有final關鍵字才更符合”ConstantValue“的含義,但在虛擬機器規範中並沒有強制要求欄位必須用final修飾,只要求了欄位必須用static修飾,對final關鍵字的要求是Javac編譯器自己加入的限制。因此,在實際的程式中,只有同時被final和static修飾的欄位才有ConstantValue屬性。而且ConstantValue的屬性值只限於基本型別和String,很明顯這是因為它從常量池中也只能夠引用到基本型別和String型別的字面量。

    下面簡要說明下final、static、static final修飾的欄位賦值的區別:

  • static修飾的欄位在類載入過程中的準備階段被初始化為0或null等預設值,而後在初始化階段(觸發類構造器<clinit>)才會被賦予程式碼中設定的值,如果沒有設定值,那麼它的值就為預設值。
  • final修飾的欄位在執行時被初始化(可以直接賦值,也可以在例項構造器中賦值),一旦賦值便不可更改;
  • static final修飾的欄位在Javac時生成ConstantValue屬性,在類載入的準備階段根據ConstantValue的值為該欄位賦值,它沒有預設值,必須顯式地賦值,否則Javac時會報錯。可以理解為在編譯期即把結果放入了常量池中。

    7)InnerClasses屬性

    該屬性用於記錄內部類與宿主類之間的關聯。如果一個類中定義了內部類,那麼編譯器將會為它及它所包含的內部類生成InnerClasses屬性。

    8)Deprecated屬性和Synthetic屬性

    該屬性用於表示某個類、欄位和方法,已經被程式作者定為不再推薦使用,它可以通過在程式碼中使用@Deprecated註釋進行設定。

    9)Synthetic屬性

    該屬性代表此欄位或方法並不是Java原始碼直接生成的,而是由編譯器自行新增的,如this欄位和例項構造器、類構造器等。

相關文章