我說我精通字串,面試官竟然問我Java中的String有沒有長度限制!?|附視訊講解

HollisChuang發表於2020-05-20

關於String有沒有長度限制的問題,我之前單獨寫過一篇文章分析過,最近我又抽空回顧了一下這個問題,發現又有了一些新的認識。於是準備重新整理下這個內容。

這次在之前那篇文章的基礎上除了增加了一些驗證過程外,還有些錯誤內容的修正。我這次在分析過程中會嘗試對Jdk的編譯過程進行debug,並且會參考一些JVM規範等全方面的介紹下這個知識點。

因為這個問題涉及到Java的編譯原理相關的知識,所以通過視訊的方式講解會更加容易理解一些,視訊我上傳到了B站:https://www.bilibili.com/video/BV1uK4y1t7H1/。

String的長度限制

想要搞清楚這個問題,首先我們需要翻閱一下String的原始碼,看下其中是否有關於長度的限制或者定義。

String類中有很多過載的建構函式,其中有幾個是支援使用者傳入length來執行長度的:

public String(byte bytes[], int offset, int length) 

可以看到,這裡面的引數length是使用int型別定義的,那麼也就是說,String定義的時候,最大支援的長度就是int的最大範圍值。

根據Integer類的定義,java.lang.Integer#MAX_VALUE的最大值是2^31 - 1;

那麼,我們是不是就可以認為String能支援的最大長度就是這個值了呢?

其實並不是,這個值只是在執行期,我們構造String的時候可以支援的一個最大長度,而實際上,在執行期,定義字串的時候也是有長度限制的。

如以下程式碼:

String s = "11111...1111";//其中有10萬個字元"1"

當我們使用如上形式定義一個字串的時候,當我們執行javac編譯時,是會丟擲異常的,提示如下:

錯誤: 常量字串過長

那麼,明明String的建構函式指定的長度是可以支援2147483647(2^31 - 1)的,為什麼像以上形式定義的時候無法編譯呢?

其實,形如String s = "xxx";定義String的時候,xxx被我們稱之為字面量,這種字面量在編譯之後會以常量的形式進入到Class常量池

那麼問題就來了,因為要進入常量池,就要遵守常量池的有關規定。

常量池限制

我們知道,javac是將Java檔案編譯成class檔案的一個命令,那麼在Class檔案生成過程中,就需要遵守一定的格式。

根據《Java虛擬機器規範》中第4.4章節常量池的定義,CONSTANT_String_info 用於表示 java.lang.String 型別的常量物件,格式如下:

CONSTANT_String_info {
    u1 tag;
    u2 string_index;
}

其中,string_index 項的值必須是對常量池的有效索引, 常量池在該索引處的項必須是 CONSTANT_Utf8_info 結構,表示一組 Unicode 碼點序列,這組 Unicode 碼點序列最終會被初始化為一個 String 物件。

CONSTANT_Utf8_info 結構用於表示字串常量的值:

CONSTANT_Utf8_info {
    u1 tag;
    u2 length;
    u1 bytes[length];
}

其中,length則指明瞭 bytes[]陣列的長度,其型別為u2,

通過翻閱《規範》,我們可以獲悉。u2表示兩個位元組的無符號數,那麼1個位元組有8位,2個位元組就有16位。

16位無符號數可表示的最大值位2^16 - 1 = 65535。

也就是說,Class檔案中常量池的格式規定了,其字串常量的長度不能超過65535。

那麼,我們嘗試使用以下方式定義字串:

 String s = "11111...1111";//其中有65535萬個字元"1"

嘗試使用javac編譯,同樣會得到"錯誤: 常量字串過長",那麼原因是什麼呢?

其實,這個原因在javac的程式碼中是可以找到的,在Gen類中有如下程式碼:

private void checkStringConstant(DiagnosticPosition var1, Object var2) {
    if (this.nerrs == 0 && var2 != null && var2 instanceof String && ((String)var2).length() >= 65535) {
        this.log.error(var1, "limit.string", new Object[0]);
        ++this.nerrs;
    }
}

程式碼中可以看出,當引數型別為String,並且長度大於等於65535的時候,就會導致編譯失敗。

這個地方大家可以嘗試著debug一下javac的編譯過程(視訊中有對java的編譯過程進行debug的方法),也可以發現這個地方會報錯。

如果我們嘗試以65534個字元定義字串,則會發現可以正常編譯。

其實,關於這個值,在《Java虛擬機器規範》也有過說明:

if the Java Virtual Machine code for a method is exactly 65535 bytes long and ends with an instruction that is 1 byte long, then that instruction cannot be protected by an exception handler. A compiler writer can work around this bug by limiting the maximum size of the generated Java Virtual Machine code for any method, instance initialization method, or static initializer (the size of any code array) to 65534 bytes

執行期限制

上面提到的這種String長度的限制是編譯期的限制,也就是使用String s= “”;這種字面值方式定義的時候才會有的限制。

那麼。String在執行期有沒有限制呢,答案是有的,就是我們前文提到的那個Integer.MAX_VALUE ,這個值約等於4G,在執行期,如果String的長度超過這個範圍,就可能會丟擲異常。(在jdk 1.9之前)

int 是一個 32 位變數型別,取正數部分來算的話,他們最長可以有

2^31-1 =2147483647 個 16-bit Unicodecharacter

2147483647 * 16 = 34359738352 位
34359738352 / 8 = 4294967294 (Byte)
4294967294 / 1024 = 4194303.998046875 (KB)
4194303.998046875 / 1024 = 4095.9999980926513671875 (MB)
4095.9999980926513671875 / 1024 = 3.99999999813735485076904296875 (GB)

有近 4G 的容量。

很多人會有疑惑,編譯的時候最大長度都要求小於65535了,執行期怎麼會出現大於65535的情況呢。這其實很常見,如以下程式碼:

String s = "";
for (int i = 0; i <100000 ; i++) {
    s+="i";
}

得到的字串長度就有10萬,另外我之前在實際應用中遇到過這個問題。

之前一次系統對接,需要傳輸高清圖片,約定的傳輸方式是對方將圖片轉成BASE6編碼,我們接收到之後再轉成圖片。

在將BASE64編碼後的內容賦值給字串的時候就拋了異常。

總結

字串有長度限制,在編譯期,要求字串常量池中的常量不能超過65535,並且在javac執行過程中控制了最大值為65534。

在執行期,長度不能超過Int的範圍,否則會拋異常。

最後,這個知識點 ,我錄製了視訊(https://www.bilibili.com/video/BV1uK4y1t7H1/),其中有關於如何進行實驗測試、如何查閱Java規範以及如何對javac進行deubg的技巧。歡迎進一步學習。

本文由部落格一文多發平臺 OpenWrite 釋出!

相關文章