Unicode,GBK和UTF8

有價值炮灰發表於2016-07-17

原文網址 : https://www.cnblogs.com/pannengzhi/p/5678495.html

前言

其實這是個老生常談的問題了,相信大家在第一次遇到Unicode編碼問題時,都會在網上搜尋一通,
找到幾個解釋,雖然有點雜亂,但還是感覺自己明白了些什麼,然後就繼續忙別的事情.
而我之所以就這個問題專門寫一篇文章,原因是前兩天在與公司一位有十幾年工作經驗的JAVA程式設計師對接
API時, 我問他返回的漢字是什麼編碼的, 而他回答說"直接返回unicode". 一個如此有經驗的老程式設計師
對這種基本問題都不甚清楚, 因此我覺得還是有必要好好說一下這個問題的.

字符集

在介紹他們之間的區別時, 我們先講下什麼是Unicode. 簡單來說,Unicode是一個字符集(character set),
和ASCII一樣, 其作用是用一系列數字來表示字元(character), 這些數字有時也稱為碼點(code points).
在PC剛出來的時候,使用英文的幾位先驅認為計算機需要表示的字元不多,26個英文字母加幾個回車換行等
特殊符號,總共一百個字元頂天了,於是就有了ASCII. ASCII碼的大小為1個位元組,定義了128個字元,
分別表示為0-127. 比如字元'A'的碼點為65,回車符'\n'的碼點為10, 如下所示:

>>> ord('A')
65
>>> ord('0')
48
>>> ord('\n')
10

當然, 後來人們發現, 世界上的字元遠遠不止128個, 因此就需要一個新的字符集能表示世上所有的字元,
包括一個英文字元,一個漢字字元,一個象形文字等. 這個字符集就是Unicode. Unicode前向相容了ASCII,
最多可以表示2^21(大概200萬)個字元,已經足夠囊括當今所有國家的文字, 如下所示:

>>> u'ソ'
u'\u30bd'
>>> u'龍'
u'\u9f8d'
>>> u'A'
u'A'

目前unicode字符集表示完所有字元後還有剩餘, 這些暫時用不到的部分通常用佔位符FFFD表示.

字元編碼

有了字符集, 我們現在可以用任意數字來表示現實中的字元了. 但字元要儲存在計算機中,必須要先經過編碼.
有人問, 數字直接儲存在記憶體裡不就行了嗎? 但是用多少個位元組表示一個數字,以及每個位元組的範圍這都是需要
預先約定的,這種約定就叫編碼. 假如我們有四個數字,1,2,3,4要儲存在計算機裡, 如果約定了utf-8編碼,
那麼在記憶體中的表示則如下:

00000001 00000010 00000011 00000100

其他的編碼規則有utf-16,gb2312,gbk等,具體的編碼規則不在本文的範圍內,想要深入瞭解的可以在網上查閱相關的文件.
因此,我們可以看到,如果不按照約定的規則來解碼,就很有可能無法還原出原來的資料,也就是我們經常遇到的"亂碼".
下面以幾個例子來簡單說明:

>>> u'你好'
u'\u4f60\u597d'
>>> u'你好'.encode('utf8')
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> u'你好'.encode('gbk')
'\xc4\xe3\xba\xc3'
>>> u'你好'.encode('utf8').decode('gbk')
u'\u6d63\u72b2\u30bd'
>>> print u'你好'.encode('utf8').decode('gbk')
浣犲ソ

如上面的程式碼所示, "你好"兩個漢字字元的unicode分別為4f60和597d, utf-8編碼後佔6個位元組, 而gbk編碼後佔4個位元組.
如果用utf8編碼後錯誤地用gbk來解碼, 就會得到3個unicode碼點,分別表示字元浣,犲和ソ;而如果用gbk編碼後
錯誤地用utf8來解碼, 則在解碼第二個字元時無法湊夠3個位元組, 因此會得到未知的結果, 甚至會因為記憶體越界訪問引起程式異常.

注: 本文的python程式碼示例是在Linux Terminal下執行的, 因此預設為utf-8編碼, 如果你是在Windows cmd裡執行,
則通常預設GBK編碼, 因此亂碼會在不同地方出現:)

知道字元編解碼的用法之後,我們就可以解釋一下常見的一些亂碼由來了, 比如在Windows下,未初始化的棧會初始化為0xcc,
未初始化的堆記憶體會初始化為0xcd, 可以看到前者為'燙'的gbk編碼,而後者正好為'屯'的gbk編碼, 如下所示:

>>> u'燙'
u'\u70eb'
>>> u'燙'.encode('gbk')
'\xcc\xcc'
>>> u'屯'
u'\u5c6f'
>>> u'屯'.encode('gbk')
'\xcd\xcd'

前面也說過, unicode暫時沒用到碼點會用佔位符FFFD來表示, 如果這個佔位符被錯誤解析, 就會被當作有意義的內容了:

>>> u'\uFFFD'.encode('utf8')
'\xef\xbf\xbd'
>>> u'錕斤拷'.encode('gbk')
'\xef\xbf\xbd\xef\xbf\xbd'
>>> print (u'\uFFFD'.encode('utf8')*2).decode('gbk')
錕斤拷

可以看到,漢字"錕斤銬"(Unicode)的gbk編碼分別為\xef\xbf, \xbd\xef和\xbf\xbd, 正好是unicode碼FFFD的utf8編碼
的疊加, 因此如果平時遇到多個utf8編碼的Unicode佔位符且不巧用了gbk的方式解碼,那就會看到熟悉的錕斤銬了.

其他

在Windows的Notepad.exe中, 儲存檔案的格式可以看到有如下幾種:

notepad

可剛剛不是說Unicode只是字符集嗎, 為什麼上面顯示可以儲存為Unicode"編碼"? 好吧, 其實這是Windows在命名上一個操蛋的
地方. 因為Windows內部使用UTF-16小端(UTF-16LE)作為預設編碼,並且認為這就是Unicode的標準編碼格式. 在Windows的世界中,
存在著ANSI字串(在當前系統內碼表中, 不可擴充),以及Unicode字串(內部以UTF16-LE編碼儲存). 因此notepad裡所說的
Unicode大端,其實就是UTF16-BE.

這其實也不怪Windows, 因為這是在Unicode出現的早期設計的, 那時我們還沒意識到UCS-2的不足, 而且UTF-8還沒有被髮明出來.
這也是為什麼Windows對UTF8的支援如此之差的原因之一吧.

後記

說了這麼多, 現在讓我們回到一開始的問題, 如果有人問你"Unicode,GBK和UTF-8有什麼區別?", 我想你應該知道該怎麼回答了吧: Unicode是
一種字符集, 而GBK和UTF-8都是編碼, 因此Unicode和後兩者不是一類事物, 是無法進行對比的.

部落格地址:

歡迎交流,文章轉載請註明出處.

C++ UTF8 互轉 Unicode
2018-10-25
C++Unicode
c++中utf8字串和gbk字串的轉換
2024-09-16
C++字串
C++ string互轉wstring/Unicode互轉ANSI/Unicode互轉UTF8
2018-07-16
C++Unicode
Oracle 字符集從GBK升級到Utf8
2020-04-04
Oracle
Unicode、GBK、UTF-8、ASCII的編碼簡介
2020-04-06
UnicodeASCII
檢視修改mysql編碼方式讓它支援中文(gbk或者utf8)
2021-09-09
MySql
webSocket 二進位制傳輸基礎準備-Unicode轉UTF16和UTF8
2019-04-04
WebUnicode
更改Oracle字符集：把字符集ZHS16GBK換成UTF8
2018-06-27
Oracle
utf-8和gbk
2021-01-02
資料庫char varchar nchar nvarchar，編碼Unicode，UTF8，GBK等，Sql語句中文前為什麼加N（一次線上資料儲存亂碼排查）
2020-06-24
資料庫UnicodeSQL
ajax 提交資料格式一個為 utf8 後臺gbk格式檔案接收亂碼
2020-04-05
UTF8
2019-02-20
新手請教，LARAVEL兩個資料庫不同編碼的問題，utf8與gbk怎麼相容顯示中文？
2021-03-30
Laravel資料庫
unicode
2020-11-08
Unicode
(1)用encode("utf8")把unicode編碼變成str/(2)python中@property，@x.setter和@x.deleter/(3)MD5加密編碼
2018-08-07
UnicodePythondelete加密
python實現中文和unicode轉換
2023-05-14
PythonUnicode
unicode和UTF-8的區別
2019-04-25
Unicode
如何理解 python UnicodeEncodeError 和 UnicodeDecodeError ：python 的 string 和 unicode
2019-02-27
PythonUnicodeError
Hacking with Unicode
2020-08-19
Unicode
utf-8 和 utf8的區別小記
2020-11-03
Unicode編碼和中文互轉（JAVA實現）
2019-01-21
UnicodeJava
你真的瞭解 Unicode 和 UTF-8 嗎？
2018-11-27
Unicode
set names utf8;
2020-04-07
Dart：開源了一個支援 stream 介面的 GBK codec, fast_gbk
2019-09-20
DartAST
Unicode 與 UTF
2019-03-30
Unicode
【arcmap】 utf8編碼
2018-11-07
utf8 加密與解密
2019-11-29
加密解密
MySQL中utf8和utf8mb4的區別
2020-11-13
MySql
Unicode的前世今生
2019-02-20
Unicode
Unicode編碼 - 代理區和4位元組codePoint
2024-09-12
Unicode
開發小技巧之:unicode的排序和正則匹配
2021-07-06
Unicode排序
帶你瞭解 Unicode和UTF-8編碼知識
2020-11-16
Unicode
Unicode編碼解碼
2023-12-09
Unicode
JavaScript 字元 Unicode 表示法
2020-04-14
JavaScript字元Unicode
使用ofstream輸出unicode
2019-02-20
Unicode
Unicode編碼介紹
2024-09-05
Unicode
Python convert string to unicode number
2024-11-07
PythonUnicode
unicode vs utf-8
2018-04-09
Unicode
unicode轉碼工具類
2021-09-09
Unicode

Unicode,GBK和UTF8

前言

字符集

字元編碼

其他

後記

相關文章