Unicode編碼 - 代理區和4位元組codePoint

yanghui01發表於2024-09-12

原文網址 : https://www.cnblogs.com/sailJs/p/18397567

Unicode

代理區介紹

代理區（Surrogate）是基本多文種平面（Basic Multilingual Plane）中的一塊保留區域，Unicode碼範圍為0xD800-0xDFFF，這個範圍內的Unicode碼約定了不會對應任何的字元。

其中又將0xD800-0xDBFF用於高代理，將0xDC00-0xDFFF用於低代理。代理區的Unicode碼只有utf-16編碼才會用到。

4位元組codePoint

後面擴充的Unicode，0x10000-0x10FFFF都是超過2個位元組，要4個位元組來表示的。

a) c#中的char是2個位元組，遇到4位元組的Unicode碼是怎麼處理的？

用2個char表示一個字元，比如："駼"的Unicode碼為0x2CCFF

string str = "A駼";
byte[] bytes = Encoding.Unicode.GetBytes(str);
Console.WriteLine($"{str.Length}, {bytes.Length}"); //3, 6

上面的程式碼執行，得到的結果是這個字串有3個char（A佔1個char，駼佔2個char），6個位元組（A的Unicode碼為2位元組，駼的Unicode碼為4位元組）。

b) 字串含有2個char的字元時，如何獲取正確的字元數？

string str = "A駼";

int charCnt = 0;
for (int i = 0; i < str.Length; ++i)
{
    char c = str[i];
    if (char.IsHighSurrogate(c))
    {
        char lowSurrogateChar = str[++i];
        int codePoint = char.ConvertToUtf32(c, lowSurrogateChar);
        string ch2 = char.ConvertFromUtf32(codePoint);
        Console.WriteLine($"0x{Convert.ToString(c, 16)}, 0x{Convert.ToString(lowSurrogateChar, 16)}");
    }
    ++charCnt;
}
Console.WriteLine(charCnt);

代理Unicode碼與4位元組Unicode碼的轉換

4位元組Unicode碼 -> 代理Unicode碼

static void GetSurrogate(int codePoint, out char highSurrogate, out char lowSurrogate)
{
    int temp = codePoint - 0x10000;
    highSurrogate = (char)((temp >> 10) + 0xD800); // 高代理（High Surrogate）碼點
    lowSurrogate = (char)((temp & 0x3ff) + 0xDC00); // 低代理（Low Surrogate）碼點
}

代理Unicode碼 -> 4位元組Unicode碼

static int MergeSurrogatePair(char highSurrogate, char lowSurrogate)
{
    int codePoint = ((int)highSurrogate - 0xD800) << 10 | ((int)lowSurrogate - 0xDC00);
    codePoint += 0x10000;
    Console.WriteLine($"0x{Convert.ToString(codePoint, 16)}");

    return codePoint;
}

或者用c#內建的api

int codePoint = char.ConvertToUtf32(highSurrogate, lowSurrogate);
Console.WriteLine($"0x{Convert.ToString(codePoint, 16)}");

參考

Unicode編碼詳解(四)：UTF-16編碼-CSDN部落格

C# - char型別的一些介紹 - yangxu-pro - 部落格園 (cnblogs.com)

C# string轉unicode編碼串 - 啊循 - 部落格園 (cnblogs.com)

在C#中處理字元簇_c# 代理項對(0xd880,0xd)無效,高代理項字元必須始終與低代理項字元承兌成對-CSDN部落格

UTF-8 與 UTF-16編碼詳解-CSDN部落格

從 unicode 到位元組的轉換
2023-11-15
Unicode
Unicode編碼解碼
2023-12-09
Unicode
編碼、摘要和加密（一）——位元組編碼
2019-04-28
加密
python反編譯之位元組碼
2019-05-19
Python編譯
Unicode編碼介紹
2024-09-05
Unicode
Unicode編碼和中文互轉（JAVA實現）
2019-01-21
UnicodeJava
字元編碼發展史4 — Unicode與UTF-8
2024-09-27
字元Unicode
Java 動態性(4) – 位元組碼操作
2019-01-19
Java
解碼返回Unicode編碼的文字
2024-04-22
Unicode
JWebAssembly：Java 位元組碼到 WebAssembly 編譯器
2022-11-01
WebJava編譯
Java程式碼如何檢視位元組碼及彙編碼
2021-01-25
Java
字符集編碼（三）：Unicode
2022-02-28
Unicode
位元組碼
2018-07-02
Unicode編碼解碼的全面介紹
2024-03-30
Unicode
位元組跳動視訊編解碼面經
2019-11-20
計算機中的編碼和字符集：理解二進位制、位元組流和常見編碼方案
2023-04-05
計算機
從零開始給女朋友講計算機 1 - 從位元、位元組、補碼到 ASCII、GB2312、Unicode
2021-07-15
計算機ASCIIUnicode
unicode編碼 asis_2019_unicorn_shop
2024-05-03
Unicode
字符集編碼（上）：Unicode 之前
2022-02-17
Unicode
帶你瞭解 Unicode和UTF-8編碼知識
2020-11-16
Unicode
Java 位元組碼
2020-04-23
Java
位元組碼指令
2024-07-16
位元組碼指令分析 ++i 和 i++
2020-10-19
Dalvik 和 Java 位元組碼的比較
2021-09-26
Java
機器碼和位元組碼分別介紹
2019-03-25
機器碼
VS2013 由Unicode字符集切換為多位元組字符集後編譯報錯
2020-11-25
Unicode編譯
MySQL 8.0 Reference Manual（讀書筆記37節-- 字元編碼(4)-Unicode Support）
2024-04-14
MySql筆記字元Unicode
java動態代理——欄位和方法位元組碼的基礎結構及Proxy原始碼分析三
2020-07-27
Java原始碼
Python字元與位元組新編
2021-06-11
Python字元
unicode和UTF-8的區別
2019-04-25
Unicode
什麼是位元組碼？python位元組碼詳細介紹！
2021-03-08
Python
jvm位元組碼和類載入機制
2020-07-01
JVM
ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
位元組碼基礎
2020-08-21
位元組碼詳解
2020-10-08
字元編碼發展史6 — BOM位元組序標記
2024-10-10
字元
modbus和位元組序
2024-04-25
位、位元組和字
2018-03-28

Unicode編碼 - 代理區和4位元組codePoint

相關文章