String
public final class String
implements java.io.Serializable, Comparable<String>, CharSequence,
Constable, ConstantDesc {
...
}
1. value陣列
用於儲存String的字元。
@Stable
private final byte[] value;
@Stable
註解表示變數最多被修改一次,稱為“穩定的”。
2. checkBoundsOffCount和checkBoundsBeginEnd方法
String的很多構造方法使用了陣列或者其他一些集合來建立新的String,這些構造方法大多含有以下引數
- 集合S
- 取值左端點p
- 取值長度l
那麼需要一個方法來檢查這幾個引數是否合法,所以String類提供了checkBoundsOffCount()
方法
static void checkBoundsOffCount(int offset, int count, int length) {
if (offset < 0 || count < 0 || offset > length - count) {
throw new StringIndexOutOfBoundsException(
"offset " + offset + ", count " + count + ", length " + length);
}
}
如下是一個以bytes陣列初始化String的例子,使用了上述方法。
public String(byte bytes[], int offset, int length, String charsetName)
throws UnsupportedEncodingException {
if (charsetName == null)
throw new NullPointerException("charsetName");
// 檢查引數邊界合法性
checkBoundsOffCount(offset, length, bytes.length);
StringCoding.Result ret =
StringCoding.decode(charsetName, bytes, offset, length);
this.value = ret.value;
this.coder = ret.coder;
}
同時,還有一個checkBoundsBeginEnd()
方法
static void checkBoundsBeginEnd(int begin, int end, int length) {
if (begin < 0 || begin > end || end > length) {
throw new StringIndexOutOfBoundsException(
"begin " + begin + ", end " + end + ", length " + length);
}
}
這個方法可以檢查begin、end以及length是否適配
3. COMPACT_STRINGS常量
static final boolean COMPACT_STRINGS;
static {
COMPACT_STRINGS = true;
}
這個常量用於表示是否支援字串壓縮,預設為true。
在coder()
方法內,要求返回String的編碼,它是這樣實現的。
byte coder(){
return COMPACT_STRINGS ? coder : UTF16;
}
如果支援字串壓縮,就正常返回該字串的coder,否則必須使用UTF16。
4. length方法
public int length() {
return value.length >> coder();
}
獲取value的長度,再根據字符集進行處理。
coder()
的返回結果如LATIN1
、UTF16
等都是位元組常量。
@Native static final byte LATIN1 = 0;
@Native static final byte UTF16 = 1;
5. getChars方法
public void getChars(int srcBegin, int srcEnd, char dst[], int dstBegin)
這個方法可以將String中的一部分轉化字元存到chars陣列中。下面是一個簡單的使用示例。
public static void main(String[] args) {
String s = "abc";
char[] cs = new char[50];
s.getChars(0,2,cs,0);
System.out.println(cs);
}
輸出
ab
6. comepareTo方法
public int compareTo(String anotherString) {
byte v1[] = value;
byte v2[] = anotherString.value;
byte coder = coder();
if (coder == anotherString.coder()) {
return coder == LATIN1 ? StringLatin1.compareTo(v1, v2)
: StringUTF16.compareTo(v1, v2);
}
return coder == LATIN1 ? StringLatin1.compareToUTF16(v1, v2)
: StringUTF16.compareToLatin1(v1, v2);
}
當呼叫String的compareTo方法時,會根據字串的編碼型別選擇不同類的靜態方法。而它們內部實現compare的演算法都是類似的。下面給出一個例子。
// StringLating類
public static int compareTo(byte[] value, byte[] other, int len1, int len2) {
int lim = Math.min(len1, len2);
for (int k = 0; k < lim; k++) {
if (value[k] != other[k]) {
return getChar(value, k) - getChar(other, k);
}
}
return len1 - len2;
}
7. hashCode方法
String的雜湊方法採用這個公式:$s[0]31^{(n-1)} + s[1]31^{(n-2)} + \cdots + s[n-1]$
public int hashCode() {
int h = hash;
if (h == 0 && !hashIsZero) {
h = isLatin1() ? StringLatin1.hashCode(value)
: StringUTF16.hashCode(value);
if (h == 0) {
hashIsZero = true;
} else {
hash = h;
}
}
return h;
}
下面是StringLatin.hashCode()
public static int hashCode(byte[] value) {
int h = 0;
for (byte v : value) {
h = 31 * h + (v & 0xff);
}
return h;
}
8. replaceAll和replaceFirst方法
public String replaceAll(String regex, String replacement) {
return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}
public String replaceFirst(String regex, String replacement) {
// 用regex表示的正規表示式去匹配當前字串,再呼叫Matcher.replace
return Pattern.compile(regex).matcher(this).replaceFirst(replacement);
}
replaceAll()
和replaceFirst()
方法接受regex
引數和replacement
引數。Pattern
類從呼叫compile()
方法解析正規表示式regex
返回一個Mathcher
,再呼叫它的replaceAll()
或replaceFirst()
方法。
9. LATIN1和UTF16
String類中定義了LATIN1和UTF16兩個編碼格式
@Native static final byte LATIN1 = 0;
@Native static final byte UTF16 = 1;
- ISO Latin-1是8位元的字符集,定義了256個字元。前128個字元(00000000-01111111)與ASCII完全一致。
- 所以使用LATIN1作為編碼格式時,往往要通過
&0xff
的方式取低八位
- 所以使用LATIN1作為編碼格式時,往往要通過
- UTF-16也是採用可變長度編碼,可以是一個或者兩個16位元。