C# - char型別的一些介紹

solenovex發表於2019-05-16

Char

C#裡面的char,其實就是System.Char型別的別名,它代表一個Unicode字元(是這樣嗎?),佔用兩個位元組。

例如:char c = ‘A’;

char佔用兩個位元組,也就是16位,其實本質上char其實就是16位的無符號整型數值,範圍是0到65535,也就是和無符號short的範圍是一樣的。

 

轉義字元

有一些字元無法通過字面的意思來進行解釋,這時候就可以使用轉義字元。

轉義字元是以 / 開始,後邊跟著一個有特殊意義的字元。

例如:

char newLine = '\n'; 這個表示換行

char backSlash = '\\'; 這個就表示 \

 

轉義字元的列表如下:

 

還有\u(\x)這兩個轉義字元可以讓你通過4位16進位制的形式來表示任意的Unicode字元,例如:

char copyrightSymbol = '\u00A9'; // ©
char omegaSymbol = '\u03A9'; // Ω
char newLine = '\u000A'; // 換行

轉換

char型別的變數可以隱式的轉換到可容納無符號short型別的數值型別,例如:

 

字元擴充套件

char只能代表一個Unicode字元, 其實這句話不太準確。

我們知道Unicode裡 65 代表著字母 A,但其實65是A的Unicode程式碼點,通常是這樣來表示的 U+0041,16進位制的41就是10進位制的65。

 

而看這個例子,德語裡面有個字元:ß,它的UniCode是 U+00DF,但就其本身而言,ß 不是一個字母,ß被認為等價於ss(也就是兩個s),例如fußball就相當於fussball。

而用在字元/字串比較的時候,就不可以把ß當作一個字元來處理,而是把ß=ss。

而ß所對應的U+00DF這個程式碼點就是字元擴充套件(Character expansion)的一個例子,如果想正確的比較字元/串,那麼這個程式碼點就必須先轉化為其它的多個程式碼點,這裡就是 U+00DF -> U+0073 + U+0073,也就是ß -> ss,記住,這只是用於比較,而不是展示。

 

字元代理

字元代理(char surrogates),和字元擴充套件正好相反。

字元擴充套件是指,一個字元代表了多個實際的字元而字元代理呢,就是使用兩個char的例項來表示一個實際的字元

字元代理之所以存在,是因為它的範圍太小了(0-65535),所以根本無法代表世界上這麼多語言的字元。實際上Unicode的程式碼點是從0到1114111(0x10FFFF),所以16位的儲存遠遠不夠用。

正是因為這點,Unicode UTF16有一個可以表示所有字元的體系,就是使用兩個連續的16位數值來表示,這就叫做代理對(surrogate pairs)。

在這兩個連續的16位數值裡,第一個數的範圍是U+D800到U+DBFF(55296到56319),所以如果您在解析字元/串的時候,解析出來的數值正好落在這個範圍裡,那麼你就需要把這個char和它後邊的char連在一起進行解析,才能得出真正要表示的字元。

從術語上講,第一個16位數叫做High Surrogate(高代理項),第二個數叫做Low Surrogate(低代理項)。

 

例如:? 它的Unicode 程式碼點是 U+1D11E,它包含一個High Surrogate:U+D834 和一個Low Surrogate:U+DD1E

 

合併字元

此外有一些程式碼點還會修改前一個字元,比如說 ä 這個字元,它可以用U+00E4來表示。

而我也可以使用 a +  ̈  (U+0061 + U+0308)的形式來表示該字元,在這裡U+0308就表示兩個點,它會修改前一個字元。

在Unicode的標準中,後邊這個字元就叫做 Combining diaeresis(組合用分音符?)

而在實際中字元/串比較的時候,你需要把這兩個字元合並當作U+00E4才可以。

 

其它

char有ToUpper()和ToLower()兩個方法可以變換大小寫,它們首先會遵循使用者的locale(區域設定),但是這就有可能引起一個bug:

char.ToUpper ('i') == 'I'

這個表示式在土耳其語裡面會返回false。

在土耳其語裡面 i 被 ToUpper()之後返回的是 İ (看起來像大寫的I上面還有一個點),所以與大寫的 I 不等。

而char也提供了不依賴使用者區域的版本:

 

  • char.ToUpperInvariant ('i')
  • char.ToUpper ('i', CultureInfo.InvariantCulture) 

這兩種寫法都可以。

 

另外一點需要注意的是,從整型轉換到char型別後,很有可能變成一個超出了Unicode範圍的字元,這樣的字元就是不合理的。

為了驗證字元是否合理,我們可以使用 char.GetUnicodeCategory()方法,如果結果是UnicodeCategory.OtherNotAssigned,那麼該字元就不合理。

 

 

相關文章