【轉】utf-8與Unicode的轉化

deepwzh發表於2017-03-25

原文網址 : https://www.cnblogs.com/Wade-/p/6618393.html

作者：uuspider
連結：https://www.zhihu.com/question/23374078/answer/65352538
來源：知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

舉一個例子：It's 知乎日報

你看到的unicode字符集是這樣的編碼表：

I 0049
t 0074
' 0027
s 0073
  0020
知 77e5
乎 4e4e
日 65e5
報 62a5

每一個字元對應一個十六進位制數字。

計算機只懂二進位制，因此，嚴格按照unicode的方式(UCS-2)，應該這樣儲存：

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
  00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
報 01100010 10100101

這個字串總共佔用了18個位元組，但是對比中英文的二進位制碼，可以發現，英文前9位都是0！浪費啊，浪費硬碟，浪費流量。

怎麼辦？

UTF。

UTF-8是這樣做的：

1. 單位元組的字元，位元組的第一位設為0，對於英語文字，UTF-8碼只佔用一個位元組，和ASCII碼完全相同；

2. n個位元組的字元(n>1)，第一個位元組的前n位設為1，第n+1位設為0，後面位元組的前兩位都設為10，這n個位元組的其餘空位填充該字元unicode碼，高位用0補足。

這樣就形成了如下的UTF-8標記位：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

於是，”It's 知乎日報“就變成了：

I 01001001
t 01110100
' 00100111
s 01110011
  00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
報 11100110 10001010 10100101

和上邊的方案對比一下，英文短了，每個中文字元卻多用了一個位元組。但是整個字串只用了17個位元組，比上邊的18個短了一點點。

下邊是課後作業：

請將”It's 知乎日報“的GB2312和GBK碼(自行google)轉成二進位制。不考慮歷史因素，從技術角度解釋為什麼在unicode和UTF-8大行其道的同時，GB2312和GBK仍在廣泛使用。

劇透：一切都是為了節省你的硬碟和流量。

unicode vs utf-8
2018-04-09
Unicode
C++ string互轉wstring/Unicode互轉ANSI/Unicode互轉UTF8
2018-07-16
C++Unicode
unicode和UTF-8的區別
2019-04-25
Unicode
PHP 讀取CSV轉化為 UTF-8
2020-12-23
PHP
unicode轉碼工具類
2021-09-09
Unicode
字元編碼發展史4 — Unicode與UTF-8
2024-09-27
字元Unicode
Unicode，UTF-8和UTF-16的區別與聯絡
2019-05-10
Unicode
webSocket 二進位制傳輸基礎準備-UTF-16和UTF-8轉Unicode
2019-04-10
WebUnicode
從 unicode 到位元組的轉換
2023-11-15
Unicode
ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
Unicode中UTF-8與UTF-16編碼詳解
2018-04-11
Unicode
Unicode、GBK、UTF-8、ASCII的編碼簡介
2020-04-06
UnicodeASCII
UTF-8編碼規則（轉）
2018-11-04
C++ UTF8 互轉 Unicode
2018-10-25
C++Unicode
python實現中文和unicode轉換
2023-05-14
PythonUnicode
你真的瞭解 Unicode 和 UTF-8 嗎？
2018-11-27
Unicode
徹底弄懂UTF-8、Unicode、寬字元、locale
2019-07-08
Unicode字元
字元編碼：Unicode & UTF-16 & UTF-8
2023-01-01
字元Unicode
PHP中文GBK編碼轉UTF-8
2019-02-16
PHP
json與字典的相互轉化
2020-09-23
JSON
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
utf-8 不用考慮位元組序（轉）
2018-04-26
Unicode編碼和中文互轉（JAVA實現）
2019-01-21
UnicodeJava
JSON 與 Java 物件之間的轉化
2023-03-28
JSONJava物件
帶你瞭解 Unicode和UTF-8編碼知識
2020-11-16
Unicode
中文轉換成html中的utf-8的方法例項程式碼
2020-05-20
HTML
Unicode 與 UTF
2019-03-30
Unicode
pyhanlp 繁簡轉換之拼音轉換與字元正則化
2019-06-28
HanLP字元
SqlServer中將字串轉utf-8的函式、支援中文的UrlEncode函式
2022-07-09
SQLServer字串函式
數字化轉型的思考與新實踐
2022-03-20
企業數字化轉型的道與術
2020-12-28
oCPC中轉化率模型與校準
2021-04-04
模型
行轉列與列轉行
2019-07-21
json轉化
2021-01-05
JSON
sql的行轉列(PIVOT)與列轉行(UNPIVOT)
2024-03-08
SQL
轉化率模型之轉化資料延遲
2021-05-07
模型
金融信創與雲化轉型｜基金超融合架構轉型與場景探索合集
2022-12-10
架構
WPP報告：內容、轉化與變現
2019-11-13
RGB與YIQ的轉換
2019-01-15

【轉】utf-8與Unicode的轉化

相關文章