Unicode，UTF-8和UTF-16的區別與聯絡

pythontab發表於2019-05-10

原文網址 : https://www.pythontab.com/html/2019/linuxkaiyuan_0510/1436.html

概念

先說一說基本的概念，這包括什麼是Unicode，什麼是UTF-8，什麼是UTF-16。

Unicode，UTF-8，UTF-16完整的說明請參考Wiki（Unicode，UTF-8，UTF-16）。用比較簡單的話來說就是，Unicode定義了所有可以用來表示字元的數值集合（稱之為Code Point）。UTF-8和UTF-16等UTF標準定義了這些數值和字元的對映關係。

UTF-8

優勢

UTF-8最大的優勢是，沒有位元組序的概念。所以特別適合用於字串的網路資料傳輸，不用考慮大小端問題。對於非英文網頁（對於我們而言，簡單說東亞文字網頁），能夠避免各種亂碼問題。

劣勢

本地字串處理過程中，如果使用UTF-8，對於英文字元的處理沒有太大的問題。一個char變數表示一個英文字元。但是對於中文等遠東字符集來說，就比較坑爹了。char str[]; str[0]並不能完整表示一個漢字。UTF-8編碼格式下，一個漢字需要至少3個char才能表示。這對於透過下標來操作字串的操作來說是非常痛苦的一件事情。

另外，一個漢字需要至少3個char來表示，也讓漢字在網路傳輸上存在劣勢，佔用太多流量（但是如果啟用了壓縮，實際上差別並不大。並且現在很多中文網站都預設將編碼從GBK改成了UTF-8）。

UTF-16

優勢

UTF-16 LE是windows上預設的Unicode編碼方式，使用wchar_t表示。所有wchar_t *型別的字串(包括硬編碼在.h/.cpp裡的字串字面值)，VC都自動採用UTF-16的編碼(字串字面值，literal string，存在很多坑。特別是char *型別的字面值，最終記憶體使用何種編碼方式完全取決於當前檔案的編碼方式。也就是說當前檔案如果是GBK編碼的，那麼檔案裡char * str = "中午"，str指向的記憶體字串二進位制是使用GBK編碼的。如果檔案編碼是UTF-8，那麼記憶體是使用UTF-8編碼。所以為什麼一直要強調字串應該放在資原始檔裡，而不是硬編碼在.h/.cpp檔案裡！)。

UTF-16另外一個優勢就是常用字元都可以使用兩個個位元組表示，也就是一個wchar_t(這裡指Windows平臺)。所以，在Windows平臺上，特別適合使用wchar_t來作為字串的儲存基型別。一個wchar_t表示一個字元。操作使用非常方便。

劣勢

沒有統一的表示UTF-16編碼的字元型別。C++98/03裡對wchar_t的定義是非常寬泛的。這導致在Windows平臺上，wchar_t是2位元組的；在Unix-like系統上是4位元組的。程式碼移植上，可能會遇到挑戰(我沒移植過，所以不確定會有什麼難度，以及難度有多大)。

即使最新的C++11裡已經定義除了char16_t表示UTF-16，MS的VS2013還不支援char16_t。所以目前使用char16_t還不具移植性。

據我瞭解，UTF-16編碼和GBK編碼相比，還存在一個排序的劣勢。也就是說，如果要按照漢語拼音的字母順序對漢字進行排序，GBK會得到正確的結果，而UTF-16就不行(暫時我還沒這種需求，所以我沒驗證過，不過好像我馬上就要與到這種需求了，到時候我再驗證下)。

UTF-16編碼字串的網路傳輸，要考慮大小端的問題。另外網路傳輸中如果一個位元組資訊丟失，剩下的字串都無法正確解析。統統亂碼。

另外，UTF-16並不是定長型別。所以還是存在生僻字使用4個位元組編碼而不是2個位元組（但是Windows有例外。在Windows（NT核心）平臺，從MSDN的各種表述來看，似乎一個wchar_t就是一個字元。更多關於Windows平臺字元編碼的問題參考知乎回答和相關評論）。

UTF-32

優勢

這個優勢就明顯了，所有字元都是4位元組，fix-length。一個wchar_t(Unix-like系統上)表示一個字元。

劣勢

對於以英文為主的字串來說，空間消耗大。

面臨和上面UTF-16一樣的問題。一致性，排序，網路傳輸，資料丟失後無法恢復。char32_t VS2013還不支援（甚至VS 14 CPT也沒打算支援）。

總結

UTF-8最適合用來作為字串網路傳輸的編碼格式。UTF-16最適合當作本地字串編碼格式。如果定義好了網路傳輸協議，那麼UTF-16也非常合適當作網路字串傳輸的編碼格式，特別是中文等遠東地區字符集。比起UTF-8來說，節省一點點流量。UTF-32沒什麼特殊癖好或者需求的話，暫時還用不上。

我個人覺得最佳實踐應該是：

Linux上使用char，採用UTF-8編碼。

網路傳輸使用UTF-8編碼。

Windows上使用wchar_t / char16_t，採用UTF-16編碼。將收到的網路資料統一從UTF-8轉碼到UTF-16。在Windows上應該銘記沒有char / std::string這種型別的字元/字串，只有wchar_t / char16_t / std::wstring / std::u16string。

unicode和UTF-8的區別
2019-04-25
Unicode
Unicode中UTF-8與UTF-16編碼詳解
2018-04-11
Unicode
字元編碼：Unicode & UTF-16 & UTF-8
2023-01-01
字元Unicode
javaSE中的==和equals的聯絡與區別
2020-07-01
Java
HDFS 塊和 Input Splits 的區別與聯絡
2018-08-14
程式和執行緒的區別與聯絡
2019-09-18
執行緒
cookie與session的區別與聯絡
2019-02-16
CookieSession
Session與Cookie的區別與聯絡
2018-09-15
SessionCookie
JRE與JDK的區別與聯絡
2023-10-30
JDK
Instruction和Question的區別和聯絡
2024-07-21
Struct
SCADA和PLC的區別聯絡
2022-11-16
Vue中watch、computed與methods的聯絡和區別
2019-11-11
Vue
tcp/ip和http的區別和聯絡
2019-01-15
TCPHTTP
http、socket、tcp的區別和聯絡？
2020-11-26
HTTPTCP
Python中__new__和__init__的區別與聯絡
2019-03-10
Python
Kafka與ActiveMQ的區別與聯絡詳解
2020-08-13
KafkaMQ
詳解Kafka與ActiveMQ的區別與聯絡！
2021-04-25
KafkaMQ
B/S與C/S的聯絡與區別
2020-12-30
Rxjs map, mergeMap 和 switchMap 的區別和聯絡
2022-05-22
JS
webSocket 二進位制傳輸基礎準備-UTF-16和UTF-8轉Unicode
2019-04-10
WebUnicode
java-介面和抽象類的聯絡和區別。
2019-01-08
Java抽象
跟你深入剖析可迭代物件和迭代器的區別與聯絡
2020-05-12
物件
`std::packaged_task`、`std::thread` 和 `std::async` 的區別與聯絡
2024-10-06
Packagethread
可觀測性與傳統監控的區別和聯絡
2024-08-14
【Python入門必看】Python中Cookie和Session的區別與聯絡！
2021-10-13
PythonCookieSession
感知器、logistic與svm 區別與聯絡
2018-03-28
ipv4與ipv6的聯絡與區別
2024-08-08
jQuery與JavaScript與ajax三者的區別與聯絡
2020-11-08
jQueryJavaScript
簡述Spring容器與SpringMVC的容器的聯絡與區別
2019-04-25
SpringMVC
hive中order by、distribute by、sort by和cluster by的區別和聯絡
2019-09-19
Hive
C/C++引用和指標的聯絡和區別
2020-12-10
C++指標
【知識點】 gcc和g++的聯絡和區別
2021-03-02
GC
產品經理和專案經理區別與聯絡
2020-12-28
KPI vs OKR：區別與聯絡的終極指南
2024-05-21
KPIOKR
單機、分散式、叢集的區別與聯絡
2020-09-03
分散式
Linux中程式和執行緒的區別與聯絡，建議收藏！
2022-09-06
Linux執行緒
【科普】等級保護與分級保護的區別和聯絡!
2022-04-15
spring、springmvc、springboot、springcloud 之間的聯絡和區別
2021-07-16
SpringMVCSpring BootGCCloud

Unicode，UTF-8和UTF-16的區別與聯絡

概念

UTF-8

優勢

劣勢

UTF-16

優勢

劣勢

UTF-32

優勢

劣勢

總結

相關文章