什麼是Unicode,什麼是UTF-8
現在常用的一些編碼方案[@more@]什麼是Unicode,什麼是UTF-8
文章轉載自指令碼之家:
一直在編碼方面要求不是很高,所以對Unicode和UTF-8也不甚瞭解。
最近偶然翻到一篇UTF-8的文章,感覺解釋的非常繁雜,因此才想到重新寫一篇簡單易懂一點的。
首先說明一下現在常用的一些編碼方案:
1、在中國,大陸最常用的就是GBK18030編碼,除此之外還有GBK,GB2312,這幾個編碼的關係是這樣的。最早制定的漢字編碼是GB2312,包括6763個漢字和682個其他符號。95年重新修訂了編碼,命名GBK1.0,共收錄了21886個符號。之後又推出了GBK18030編碼,共收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字,現在WINDOWS平臺必需要支援GBK18030編碼。按照GBK18030、GBK、GB2312的順序,3種編碼是向下相容,同一個漢字在三個編碼方案中是相同的編碼。
2、臺灣,香港等地使用的是BIG5編碼
3、日本:SJIS編碼
如果把各種文字編碼形容為各地的方言,那麼Unicode就是世界各國合作開發的一種語言。在這種語言環境下,不會再有語言的編碼衝突,在同屏下,可以顯示任何語言的內容,這就是Unicode的最大好處。那麼Unicode是如何編碼的呢?其實非常簡單。就是將世界上所有的文字用2個位元組統一進行編碼。可能你會問,2個位元組最多能夠表示65536個編碼,夠用嗎? 韓國和日本的大部分漢字都是從中國傳播過去的,字型是完全一樣的。比如:“文”字,GBK和SJIS中都是同一個漢字,只是編碼不同而已。那樣,像這樣統一編碼,2個位元組就已經足夠容納世界上所有的語言的大部分文字了。 Unicode的學名是"Universal Multiple-Octet Coded Character Set",簡稱為UCS。
現在用的是UCS-2,即2個位元組編碼,而UCS-4是為了防止將來2個位元組不夠用才開發的。UCS-2也稱為基本多文種平面。 UCS-2轉換到UCS-4只是簡單的在前面加2個位元組0。 UCS-4則主要用於儲存輔助平面,例如Unicode 4.0中的第二輔助平面
20000-20FFF - 21000-21FFF - 22000-22FFF - 23000-23FFF - 24000-24FFF - 25000-25FFF - 26000-26FFF - 27000-27FFF - 28000-28FFF - 29000-29FFF - 2A000-2AFFF - 2F000-2FFFF
總共增加了16個輔助平面,由原先的65536個編碼擴充套件至將近100萬編碼。那麼既然統一了編碼,如何相容原先各國的文字編碼呢?這個時候就需要codepage了。什麼是codepage?codepage就是各國的文字編碼和Unicode之間的對映表。比如簡體中文和Unicode的對映表就是CP936,點這裡檢視官方的對映表。以下是幾個常用的codepage,相應的修改上面的位址的數字即可。
codepage=936 簡體中文GBK
codepage=950 繁體中文BIG5
codepage=437 美國/加拿大英語
codepage=932 日文
codepage=949 韓文
codepage=866 俄文
codepage=65001 unicode UFT-8
最後一個65001,據個人理解,應該只是一個虛擬的對映表,實際只是一個演演算法而已。從936中隨意取一行,例如: 0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH
前面的編碼是GBK的編碼,後面的是Unicode。透過查這張表,就能簡單的實現GBK和Unicode之間的轉換。
現在明白了Unicode,那麼UTF-8又是什麼呢?又為什麼會出現UTF-8呢?ASCII轉換成UCS-2,只是在編碼前插入一個0x0。用這些編碼,會包括一些控制符,比如 或 /,這在UNIX和一些C函式中,將會產生嚴重錯誤。因此可以肯定,UCS-2不適合作為Unicode的外部編碼。因此,才誕生了UTF-8。那麼UTF-8是如何編碼的?又是如何解決UCS-2的問題呢?
例:
E4 BD A0 11100100 10111101 10100000
這是“你”字的UTF-8編碼
4F 60 01001111 01100000
這是“你”的Unicode編碼
按照UTF-8的編碼規則,分解如下:xxxx0100 xx111101 xx100000
把除了x之外的數字拼接在一起,就變成“你”的Unicode編碼了。
注意UTF-8的最前面3個1,表示整個UTF-8串是由3個位元組構成的。
經過UTF-8編碼之後,再也不會出現敏感字元了,因為最高位元始終為1。
以下是Unicode和UTF-8之間的轉換關係表:
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Unicode編碼轉換到UTF-8,簡單的把Unicode位元組流套到x中就變成UTF-8了。
一直在編碼方面要求不是很高,所以對Unicode和UTF-8也不甚瞭解。
最近偶然翻到一篇UTF-8的文章,感覺解釋的非常繁雜,因此才想到重新寫一篇簡單易懂一點的。
首先說明一下現在常用的一些編碼方案:
1、在中國,大陸最常用的就是GBK18030編碼,除此之外還有GBK,GB2312,這幾個編碼的關係是這樣的。最早制定的漢字編碼是GB2312,包括6763個漢字和682個其他符號。95年重新修訂了編碼,命名GBK1.0,共收錄了21886個符號。之後又推出了GBK18030編碼,共收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字,現在WINDOWS平臺必需要支援GBK18030編碼。按照GBK18030、GBK、GB2312的順序,3種編碼是向下相容,同一個漢字在三個編碼方案中是相同的編碼。
2、臺灣,香港等地使用的是BIG5編碼
3、日本:SJIS編碼
如果把各種文字編碼形容為各地的方言,那麼Unicode就是世界各國合作開發的一種語言。在這種語言環境下,不會再有語言的編碼衝突,在同屏下,可以顯示任何語言的內容,這就是Unicode的最大好處。那麼Unicode是如何編碼的呢?其實非常簡單。就是將世界上所有的文字用2個位元組統一進行編碼。可能你會問,2個位元組最多能夠表示65536個編碼,夠用嗎? 韓國和日本的大部分漢字都是從中國傳播過去的,字型是完全一樣的。比如:“文”字,GBK和SJIS中都是同一個漢字,只是編碼不同而已。那樣,像這樣統一編碼,2個位元組就已經足夠容納世界上所有的語言的大部分文字了。 Unicode的學名是"Universal Multiple-Octet Coded Character Set",簡稱為UCS。
現在用的是UCS-2,即2個位元組編碼,而UCS-4是為了防止將來2個位元組不夠用才開發的。UCS-2也稱為基本多文種平面。 UCS-2轉換到UCS-4只是簡單的在前面加2個位元組0。 UCS-4則主要用於儲存輔助平面,例如Unicode 4.0中的第二輔助平面
20000-20FFF - 21000-21FFF - 22000-22FFF - 23000-23FFF - 24000-24FFF - 25000-25FFF - 26000-26FFF - 27000-27FFF - 28000-28FFF - 29000-29FFF - 2A000-2AFFF - 2F000-2FFFF
總共增加了16個輔助平面,由原先的65536個編碼擴充套件至將近100萬編碼。那麼既然統一了編碼,如何相容原先各國的文字編碼呢?這個時候就需要codepage了。什麼是codepage?codepage就是各國的文字編碼和Unicode之間的對映表。比如簡體中文和Unicode的對映表就是CP936,點這裡檢視官方的對映表。以下是幾個常用的codepage,相應的修改上面的位址的數字即可。
codepage=936 簡體中文GBK
codepage=950 繁體中文BIG5
codepage=437 美國/加拿大英語
codepage=932 日文
codepage=949 韓文
codepage=866 俄文
codepage=65001 unicode UFT-8
最後一個65001,據個人理解,應該只是一個虛擬的對映表,實際只是一個演演算法而已。從936中隨意取一行,例如: 0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH
前面的編碼是GBK的編碼,後面的是Unicode。透過查這張表,就能簡單的實現GBK和Unicode之間的轉換。
現在明白了Unicode,那麼UTF-8又是什麼呢?又為什麼會出現UTF-8呢?ASCII轉換成UCS-2,只是在編碼前插入一個0x0。用這些編碼,會包括一些控制符,比如 或 /,這在UNIX和一些C函式中,將會產生嚴重錯誤。因此可以肯定,UCS-2不適合作為Unicode的外部編碼。因此,才誕生了UTF-8。那麼UTF-8是如何編碼的?又是如何解決UCS-2的問題呢?
例:
E4 BD A0 11100100 10111101 10100000
這是“你”字的UTF-8編碼
4F 60 01001111 01100000
這是“你”的Unicode編碼
按照UTF-8的編碼規則,分解如下:xxxx0100 xx111101 xx100000
把除了x之外的數字拼接在一起,就變成“你”的Unicode編碼了。
注意UTF-8的最前面3個1,表示整個UTF-8串是由3個位元組構成的。
經過UTF-8編碼之後,再也不會出現敏感字元了,因為最高位元始終為1。
以下是Unicode和UTF-8之間的轉換關係表:
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Unicode編碼轉換到UTF-8,簡單的把Unicode位元組流套到x中就變成UTF-8了。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/786540/viewspace-924647/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 什麼是 unicode 程式碼點Unicode
- 什麼是cookie,什麼是sessionCookieSession
- 這是什麼這是什麼
- 什麼是分而治之?什麼是WBS?
- 什麼是DNS,什麼是HostsDNS
- 什麼是WebAuthn、FIDO 是什麼?Web
- ###什麼是Linux核心###什麼是MMULinux
- ITIL是什麼意思?ITIL是什麼?
- SNP全稱是什麼? SNP是什麼公司? SNP是什麼意思?
- 人是什麼?人生是什麼?人為什麼會變?
- ftp是什麼,ftp是什麼東西?FTP
- 什麼是正向代理?什麼是反向代理?
- NLA是什麼?NLA的原理是什麼?
- Java是什麼_Java是做什麼的?Java
- 什麼是this
- 為什麼要有 Servlet ,什麼是 Servlet 容器,什麼是 Web 容器?ServletWeb
- 什麼是框架?為什麼說 Angular 是框架?框架Angular
- IDFA、IMEI、OAID 是什麼,區別是什麼AI
- GNU是什麼?和Linux是什麼關係?Linux
- 什麼是SSRF攻擊?SSRF用途是什麼?
- 什麼是API介面,具體是什麼意思?API
- DRBD是什麼意思?優缺點是什麼?
- 什麼是塊元素?什麼是行內元素?
- 什麼是Tornado?它的特點是什麼?
- nginx 是什麼,能幹什麼?Nginx
- 什麼是zoom?它有什麼作用?OOM
- 什麼是NLA,它有什麼用?
- 什麼是Django?有什麼用途?Django
- AI三重問:什麼是AI?什麼是AI模型?什麼是AI大模型?AI大模型
- 什麼是重繪repaint?什麼是迴流reflow?AI
- DHCP是什麼?DHCP伺服器是什麼意思?伺服器
- 什麼是eval()?eval是用來幹什麼的?
- 域名是什麼?申請域名的流程是什麼?
- 什麼是CDN?CDN的技術原理是什麼?
- 什麼是樂觀鎖,什麼是悲觀鎖
- 車上HOLD是什麼意思,AUTO HOLD是什麼功能,有什麼作用?
- 幽默圖:什麼是Bug纏身?什麼是義大利麵條?什麼是大泥球?
- 什麼是 DevSecOps?dev
- 什麼是 Docker?Docker