C# - char型別的一些介紹

solenovex發表於2019-05-16

原文網址 : https://www.cnblogs.com/cgzl/p/10873357.html

C#型別

Char

C#裡面的char，其實就是System.Char型別的別名，它代表一個Unicode字元（是這樣嗎?），佔用兩個位元組。

例如：char c = ‘A’;

char佔用兩個位元組，也就是16位，其實本質上char其實就是16位的無符號整型數值，範圍是0到65535，也就是和無符號short的範圍是一樣的。

轉義字元

有一些字元無法通過字面的意思來進行解釋，這時候就可以使用轉義字元。

轉義字元是以 / 開始，後邊跟著一個有特殊意義的字元。

例如：

char newLine = '\n'; 這個表示換行

char backSlash = '\\'; 這個就表示 \

轉義字元的列表如下：

還有\u（\x）這兩個轉義字元可以讓你通過4位16進位制的形式來表示任意的Unicode字元，例如：

char copyrightSymbol = '\u00A9'; // ©
char omegaSymbol = '\u03A9'; // Ω
char newLine = '\u000A'; // 換行

轉換

char型別的變數可以隱式的轉換到可容納無符號short型別的數值型別，例如：

字元擴充套件

char只能代表一個Unicode字元, 其實這句話不太準確。

我們知道Unicode裡 65 代表著字母 A，但其實65是A的Unicode程式碼點，通常是這樣來表示的 U+0041，16進位制的41就是10進位制的65。

而看這個例子，德語裡面有個字元：ß，它的UniCode是 U+00DF，但就其本身而言，ß 不是一個字母，ß被認為等價於ss（也就是兩個s），例如fußball就相當於fussball。

而用在字元/字串比較的時候，就不可以把ß當作一個字元來處理，而是把ß=ss。

而ß所對應的U+00DF這個程式碼點就是字元擴充套件（Character expansion）的一個例子，如果想正確的比較字元/串，那麼這個程式碼點就必須先轉化為其它的多個程式碼點，這裡就是 U+00DF -> U+0073 + U+0073，也就是ß -> ss，記住，這只是用於比較，而不是展示。

字元代理

字元代理（char surrogates），和字元擴充套件正好相反。

字元擴充套件是指，一個字元代表了多個實際的字元；而字元代理呢，就是使用兩個char的例項來表示一個實際的字元。

字元代理之所以存在，是因為它的範圍太小了（0-65535），所以根本無法代表世界上這麼多語言的字元。實際上Unicode的程式碼點是從0到1114111（0x10FFFF），所以16位的儲存遠遠不夠用。

正是因為這點，Unicode UTF16有一個可以表示所有字元的體系，就是使用兩個連續的16位數值來表示，這就叫做代理對（surrogate pairs）。

在這兩個連續的16位數值裡，第一個數的範圍是U+D800到U+DBFF（55296到56319），所以如果您在解析字元/串的時候，解析出來的數值正好落在這個範圍裡，那麼你就需要把這個char和它後邊的char連在一起進行解析，才能得出真正要表示的字元。

從術語上講，第一個16位數叫做High Surrogate（高代理項），第二個數叫做Low Surrogate（低代理項）。

例如：? 它的Unicode 程式碼點是 U+1D11E，它包含一個High Surrogate：U+D834 和一個Low Surrogate：U+DD1E

合併字元

此外有一些程式碼點還會修改前一個字元，比如說 ä 這個字元，它可以用U+00E4來表示。

而我也可以使用 a + ̈ （U+0061 + U+0308）的形式來表示該字元，在這裡U+0308就表示兩個點，它會修改前一個字元。

在Unicode的標準中，後邊這個字元就叫做 Combining diaeresis（組合用分音符？）

而在實際中字元/串比較的時候，你需要把這兩個字元合並當作U+00E4才可以。

其它

char有ToUpper()和ToLower()兩個方法可以變換大小寫，它們首先會遵循使用者的locale（區域設定），但是這就有可能引起一個bug：

char.ToUpper ('i') == 'I'

這個表示式在土耳其語裡面會返回false。

在土耳其語裡面 i 被 ToUpper()之後返回的是 İ （看起來像大寫的I上面還有一個點），所以與大寫的 I 不等。

而char也提供了不依賴使用者區域的版本：

char.ToUpperInvariant ('i')
char.ToUpper ('i', CultureInfo.InvariantCulture)

這兩種寫法都可以。

另外一點需要注意的是，從整型轉換到char型別後，很有可能變成一個超出了Unicode範圍的字元，這樣的字元就是不合理的。

為了驗證字元是否合理，我們可以使用 char.GetUnicodeCategory()方法，如果結果是UnicodeCategory.OtherNotAssigned，那麼該字元就不合理。

C#學習 [型別系統] 基本型別介紹（10）
2024-10-30
C#型別
string型別介紹
2019-02-24
型別
const char* 型別不能用於初始化char* 型別實體
2020-06-04
型別
C#中的char和string的使用簡介
2020-07-18
C#
【C++】CONST CHAR*型別的值不能用於初始化CHAR*型別的實體
2020-02-11
C++型別
語言型別介紹及其Python的語言型別
2020-11-29
型別Python
E0144 "const char *" 型別的值不能用於初始化 "char *" 型別的實體
2018-07-29
型別
postgreSQL 索引（二）型別介紹
2018-12-02
SQL索引型別
【Redis】資料型別介紹
2023-05-10
Redis資料型別
SQL | JOIN 型別使用介紹
2024-08-26
SQL型別
http代理型別格式介紹
2021-12-13
HTTP型別
Rust 資料型別介紹
2021-10-09
Rust資料型別
介紹PostgreSQL的陣列型別FU
2022-03-21
SQL陣列型別
常見的代理IP型別介紹
2022-06-30
型別
NTMySQL中varchar和char型別的區別hee
2022-03-01
MySql型別
【VS2019 C++】"const char *" 型別的值不能用於初始化 "char *" 型別的實體
2020-02-25
C++型別
java浮點型別案例介紹
2018-06-18
Java型別
C++ 列舉型別介紹
2021-04-08
C++型別
當char型變數遇上char*型的指標
2024-06-18
變數指標
C++中的基本變數型別介紹
2019-03-14
C++變數型別
戶外投影的型別以及優勢介紹
2023-03-28
型別
Go 複合型別之字典型別介紹
2023-10-10
Go型別
以太坊Solidity型別介紹+實戰
2018-05-04
Solid型別
Solidity 教程系列2 - 地址型別介紹
2018-05-04
Solid型別
C 語言之布林型別介紹
2020-07-03
型別
MySQL資料型別操作(char與varchar)
2022-01-25
MySql資料型別
【筆記】VS2017中出現 "const char *" 型別的值不能用於初始化 "char *" 型別的實體
2019-04-16
筆記型別
golang資料型別基本介紹與使用
2024-05-29
Golang資料型別
GBase8s資料型別介紹
2021-11-24
資料型別
c#中值型別和引用型別的區別
2024-10-16
C#型別
VS2019【C++報錯】E0144"const char *" 型別的值不能用於初始化 "char *" 型別的實體
2020-03-26
C++型別
c#:值型別&引用型別
2020-10-08
C#型別
VS中”LPTSTR" 型別的值不能用於初始化 "char *" 型別的實體
2018-10-10
型別
CString與LPCWSTR、LPSTR、char*、LPWSTR等型別的轉換
2018-12-29
型別
幾種不常見的DNS解析記錄型別介紹
2021-11-25
DNS型別
MYSQL SET型別欄位的SQL操作知識介紹
2021-09-09
MySql型別
Java char 型別究竟佔幾個位元組?
2022-06-12
Java型別
std::cout 輸出 unsigned char型別資料
2020-12-03
型別