JDK原始碼閱讀：String類閱讀筆記

pedro7發表於2021-10-04

原文網址 : https://www.cnblogs.com/WangXianSCU/p/15365978.html

String

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence,
               Constable, ConstantDesc {
	...
}

1. value陣列

用於儲存String的字元。

@Stable
private final byte[] value;

@Stable註解表示變數最多被修改一次，稱為“穩定的”。

2. checkBoundsOffCount和checkBoundsBeginEnd方法

String的很多構造方法使用了陣列或者其他一些集合來建立新的String，這些構造方法大多含有以下引數

集合S
取值左端點p
取值長度l

那麼需要一個方法來檢查這幾個引數是否合法，所以String類提供了checkBoundsOffCount()方法

static void checkBoundsOffCount(int offset, int count, int length) {
    if (offset < 0 || count < 0 || offset > length - count) {
        throw new StringIndexOutOfBoundsException(
            "offset " + offset + ", count " + count + ", length " + length);
    }
}

如下是一個以bytes陣列初始化String的例子，使用了上述方法。

public String(byte bytes[], int offset, int length, String charsetName)
            throws UnsupportedEncodingException {
    if (charsetName == null)
        throw new NullPointerException("charsetName");
    // 檢查引數邊界合法性
    checkBoundsOffCount(offset, length, bytes.length);
    StringCoding.Result ret =
        StringCoding.decode(charsetName, bytes, offset, length);
    this.value = ret.value;
    this.coder = ret.coder;
}

同時，還有一個checkBoundsBeginEnd()方法

static void checkBoundsBeginEnd(int begin, int end, int length) {
    if (begin < 0 || begin > end || end > length) {
        throw new StringIndexOutOfBoundsException(
            "begin " + begin + ", end " + end + ", length " + length);
    }
}

這個方法可以檢查begin、end以及length是否適配

3. COMPACT_STRINGS常量

static final boolean COMPACT_STRINGS;

static {
    COMPACT_STRINGS = true;
}

這個常量用於表示是否支援字串壓縮，預設為true。

在coder()方法內，要求返回String的編碼，它是這樣實現的。

byte coder(){
    return COMPACT_STRINGS ? coder : UTF16;
}

如果支援字串壓縮，就正常返回該字串的coder，否則必須使用UTF16。

4. length方法

public int length() {
    return value.length >> coder();
}

獲取value的長度，再根據字符集進行處理。

coder()的返回結果如LATIN1、UTF16等都是位元組常量。

@Native static final byte LATIN1 = 0;
@Native static final byte UTF16  = 1;

5. getChars方法

public void getChars(int srcBegin, int srcEnd, char dst[], int dstBegin)

這個方法可以將String中的一部分轉化字元存到chars陣列中。下面是一個簡單的使用示例。

public static void main(String[] args) {
    String s = "abc";
    char[] cs = new char[50];
    s.getChars(0,2,cs,0);
    System.out.println(cs);
}

輸出

ab

6. comepareTo方法

public int compareTo(String anotherString) {
    byte v1[] = value;
    byte v2[] = anotherString.value;
    byte coder = coder();
    if (coder == anotherString.coder()) {
        return coder == LATIN1 ? StringLatin1.compareTo(v1, v2)
            : StringUTF16.compareTo(v1, v2);
    }
    return coder == LATIN1 ? StringLatin1.compareToUTF16(v1, v2)
        : StringUTF16.compareToLatin1(v1, v2);
}

當呼叫String的compareTo方法時，會根據字串的編碼型別選擇不同類的靜態方法。而它們內部實現compare的演算法都是類似的。下面給出一個例子。

// StringLating類
public static int compareTo(byte[] value, byte[] other, int len1, int len2) {
    int lim = Math.min(len1, len2);
    for (int k = 0; k < lim; k++) {
        if (value[k] != other[k]) {
            return getChar(value, k) - getChar(other, k);
        }
    }
    return len1 - len2;
}

7. hashCode方法

String的雜湊方法採用這個公式：$s[0]31^{(n-1)} + s[1]31^{(n-2)} + \cdots + s[n-1]$

public int hashCode() {
    int h = hash;
    if (h == 0 && !hashIsZero) {
        h = isLatin1() ? StringLatin1.hashCode(value)
            : StringUTF16.hashCode(value);
        if (h == 0) {
            hashIsZero = true;
        } else {
            hash = h;
        }
    }
    return h;
}

下面是StringLatin.hashCode()

public static int hashCode(byte[] value) {
    int h = 0;
    for (byte v : value) {
        h = 31 * h + (v & 0xff);
    }
    return h;
}

8. replaceAll和replaceFirst方法

public String replaceAll(String regex, String replacement) {
    return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}

public String replaceFirst(String regex, String replacement) {
    // 用regex表示的正規表示式去匹配當前字串，再呼叫Matcher.replace
    return Pattern.compile(regex).matcher(this).replaceFirst(replacement);
}

replaceAll()和replaceFirst()方法接受regex引數和replacement引數。Pattern類從呼叫compile()方法解析正規表示式regex返回一個Mathcher，再呼叫它的replaceAll()或replaceFirst()方法。

9. LATIN1和UTF16

String類中定義了LATIN1和UTF16兩個編碼格式

@Native static final byte LATIN1 = 0;
@Native static final byte UTF16  = 1;

ISO Latin-1是8位元的字符集，定義了256個字元。前128個字元(00000000-01111111)與ASCII完全一致。
- 所以使用LATIN1作為編碼格式時，往往要通過&0xff的方式取低八位
UTF-16也是採用可變長度編碼，可以是一個或者兩個16位元。

JDK原始碼閱讀：Object類閱讀筆記
2021-09-18
JDK原始碼Object筆記
JDK原始碼閱讀-String類
2019-01-13
JDK原始碼
JDK原始碼閱讀(7)：ConcurrentHashMap類閱讀筆記
2021-11-25
JDK原始碼HashMap筆記
JDK原始碼閱讀(5)：HashTable類閱讀筆記
2021-11-09
JDK原始碼筆記
JDK原始碼閱讀(4)：HashMap類閱讀筆記
2021-10-10
JDK原始碼HashMap筆記
JDK原始碼閱讀(3)：AbstractStringBuilder、StringBuffer、StringBuilder類閱讀筆記
2021-10-09
JDK原始碼UI筆記
String（JDK1.8）原始碼閱讀記錄
2018-09-06
JDK原始碼
JDK1.8原始碼閱讀筆記(1)Object類
2021-09-07
JDK原始碼筆記Object
JDK原始碼閱讀-Object類
2019-01-12
JDK原始碼Object
JDK原始碼閱讀-Integer類
2019-01-12
JDK原始碼
JDK原始碼閱讀-Number類
2019-01-11
JDK原始碼
如何閱讀jdk原始碼？
2019-04-13
JDK原始碼
Koa 原始碼閱讀筆記
2018-09-30
原始碼筆記
CopyOnWriteArrayList原始碼閱讀筆記
2020-08-17
原始碼筆記
ArrayList原始碼閱讀筆記
2020-08-18
原始碼筆記
LinkedList原始碼閱讀筆記
2020-08-20
原始碼筆記
python原始碼閱讀筆記
2024-11-10
Python原始碼筆記
guavacache原始碼閱讀筆記
2021-06-18
Guava原始碼筆記
LongAdder原始碼閱讀筆記
2021-06-12
原始碼筆記
JDK原始碼閱讀-CharSequence介面
2019-01-13
JDK原始碼
JDK原始碼閱讀-Comparable介面
2019-01-13
JDK原始碼
Express Session 原始碼閱讀筆記
2019-04-20
ExpressSession原始碼筆記
【原始碼閱讀】AndPermission原始碼閱讀
2019-05-09
原始碼
JDK1.8 ConcurrentHashMap原始碼閱讀
2018-11-25
JDKHashMap原始碼
【iOS印象】GLPubSub 原始碼閱讀筆記
2019-03-01
iOS原始碼筆記
Flask 原始碼閱讀筆記開篇
2019-03-03
Flask原始碼筆記
Redux 學習筆記 – 原始碼閱讀
2019-01-15
Redux筆記原始碼
goroutine排程原始碼閱讀筆記
2020-07-29
Go原始碼筆記
Laravel 訊息通知原始碼閱讀筆記
2018-11-22
Laravel原始碼筆記
tomcat8.5.57原始碼閱讀筆記1
2024-11-14
Tomcat原始碼筆記
【原始碼閱讀】Glide原始碼閱讀之with方法（一）
2019-04-17
原始碼IDE
【原始碼閱讀】Glide原始碼閱讀之into方法（三）
2019-04-18
原始碼IDE
閱讀筆記
2024-10-25
筆記
Java類載入原始碼閱讀
2019-02-25
Java原始碼
【初學】Spring原始碼筆記之零：閱讀原始碼
2020-07-10
Spring原始碼筆記
【原始碼閱讀】Glide原始碼閱讀之load方法（二）
2019-04-18
原始碼IDE
Swift標準庫原始碼閱讀筆記 - Dictionary
2018-07-06
Swift原始碼筆記
Django 原始碼閱讀筆記(基礎檢視)
2020-06-15
Django原始碼筆記