聊一聊編碼與亂碼的區別

飢人谷前端發表於2017-12-25

在瀏覽器上檢視網頁，偶爾會看到一些網站出現亂碼的情況。這裡用通俗易懂的語言聊一聊編碼的那些事

認識幾種編碼方式

ASCII

計算機發明之後需要使用0和1來表示字元，於是美國人在50年代發明了 ASCII (美國標準資訊交換程式碼,American Standard Code for Information Interchange) 碼。它由128個字元組成，包括大小寫字母、數字0-9、標點符號、非列印字元（換行符、製表符等4個）以及控制字元（退格、響鈴等）組成，每個字元佔7位（1位元組是8位）。比如 'a'的 ASCII碼10進位制是97，二進位制是 01100001。

ISOLatin-1

可以認為ASCII是美國發明針對英語設計的，但歐洲人在用的時候出現了問題。對於一些特殊的拉丁字元，比如法文德文裡某些字元，ASCII字符集就不包括。於是歐洲人發明了一種8位字符集是ISO 8859-1Latin 1，也簡稱為ISOLatin-1。它對ASCII做了個擴充，對於0-127之間的字元還使用ASCII裡的字元不變，把位於128-255之間的字元表示拉丁字母表中特殊語言字元。

UNICODE

後來計算機不斷髮展擴充套件到亞洲非洲，如何用計算機使用的二進位制表示這些語言又成了問題。ISOLatin-1的8位字符集只能表示256個字元，而僅漢語就有80000以上個字元。如何把地球上絕大多數語言用一種編碼方式表示出來呢？於是發明了UNICODE編碼，只用2個位元組(16位)就可以編碼地球上幾乎所有地區的文字。

但是，UNICODE只是理論上的編碼方式，相當於給世界上每個文字打了個編號，但這編號具體如何在計算機裡面儲存，可以有多種實現方式。比如utf-8和gbk。

前面說了UNICODE只是給每個文字打了個編號，為啥不把這個編號直接轉化成二進位制儲存在計算機裡面呢？比如英文字母s的編號是115, 用二進位制表示是00000000 1110011, 中文日的編號是26085 (16進位制是65e5) ，二進位制是11001011 1100101。老外才沒那麼傻，對於老外這種日常純粹是用英文字元的人來說明明之前1個位元組就能儲存一個字母，現在為了全球大一統非要儲存為2個位元組，相當於一個之前一個1M的文件，現在變為2M。於是老外耍了賴，英文字母s是115沒錯，但我就用1個位元組1110011表示，而你中文日是26085號也沒錯，但是你不能在使用2個表示，而是用2個甚至6個位元組表示。（為了英文的特權，犧牲其他語言的儲存空間的便利），這個編碼方式就是UTF-8。

UTF-8

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，又稱萬國碼。UTF-8用1到6個位元組編碼UNICODE字元。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言（如英文，日文，韓文）。

那GBK又是如何產生的呢？

GBK

這時候中國人不幹了，為啥你制定了全球大一統的規則，卻為了自己的便利又破壞規則，連這點小便宜都不放過(典型的美國人作風)？明明用2個位元組就能表示中文一個漢字，現在UTF-8編碼中文竟然需要2個甚至4個位元組來表示。於是中國製定一套自己的規則，於是用2個位元組來表示一個漢字，總共可以覆蓋2萬多個文字。對於英文，好吧讓一步，還保留和你UTF-8同樣的方式使用一個位元組來表示。

下圖是把當前文章分別儲存為 gbk 何 utf-8兩種編碼格式下檔案大小的對比，表明用 gbk 確實省空間

記住：UNICODE只是給字元一個代號，而GBK和UTF-8使用不同的規則來表示同一個代號。

網頁亂碼如何產生的呢？

下面這個流程是我們寫入檔案到展示檔案的簡單描述：

我們使用編輯器編寫 HTML 檔案
儲存編寫的HTML檔案
使用瀏覽器開啟HTML檔案
HTML檔案在瀏覽器展示亂碼產生的根源就在與第2步驟和第4步。

在第2步保持檔案時會把我們寫入的文字使用編輯器預設的編碼方式進行儲存。如果大家使用的是vscode編輯器，預設的編碼方式是utf-8。

在第4步瀏覽器開啟網頁時，它並不知道你的這個檔案是使用什麼編碼方式，於是自作主張使用了預設解碼方式。如下圖所示，檔案儲存為GBK格式，在Chrome開啟時預設使用 ISO -8859的解碼方式，導致編碼和解碼不匹配，產生亂碼。

那如何規避這個問題呢？即如何通知瀏覽器用什麼方式解碼呢？首頁，在檔案儲存的時候你自己要清楚是用哪種編碼方式儲存的。如果你的檔案是儲存為utf-8格式，那麼一定要在html 的 <head>裡新增<meta charset="utf-8">，這句話的意思是告訴瀏覽器在開啟這個頁面的時候不要去猜了，直接用utf-8去解碼。同理，如果你的檔案儲存為gbk格式，一定在檔案裡新增<meta charset="gbk">。

總結：

亂碼產生的根本原因是你儲存的編碼格式和瀏覽器解析時的解碼格式不匹配導致的。
亂碼一般是英文以外的字元才會出現。為啥純粹的英文不會出現亂碼問題，即使編碼方式和解碼方式不一致？那是因為前面講過了 utf-8、gbk對英文都是採用1個位元組的編碼方式，並且使用了相同的碼字。

加微訊號: astak10或者長按識別下方二維碼進入前端技術交流群，暗號：寫程式碼啦

每日一題，每週資源推薦，精彩部落格推薦，工作、筆試、面試經驗交流解答，免費直播課，群友輕分享... ，數不盡的福利免費送

聊一聊微服務元件區別
2020-11-08
微服務元件
聊一聊Greenplum與PostgreSQL
2023-11-09
SQL
聊一聊 EventBus 原始碼和設計之禪
2018-04-15
原始碼
聊一聊Iterable與Iterator的那些事！
2019-03-25
聊一聊Java8 Optional，讓你的程式碼更加優雅
2022-03-31
Java
聊一聊 JVM 的 GC
2021-05-22
JVMGC
聊一聊 RestTemplate
2018-10-20
REST
聊一聊過濾器與攔截器
2022-05-09
過濾器
聊一聊如何使用context，這是學習redux原始碼的基礎哦
2019-03-05
ContextRedux原始碼
聊一聊 Javascript 中的 AST
2019-10-10
JavaScriptAST
聊一聊 TLS/SSL
2023-09-22
TLS
聊一聊宣告式介面呼叫與Nacos的結合使用
2021-11-12
聊一聊JavaScript中的嚴格模式與相關的‘坑’
2019-03-17
JavaScript模式
聊一聊領域驅動與貧血模型
2024-07-03
模型
聊一聊 AOP ：表現形式與基礎概念
2019-02-28
聊一聊MySQL的直方圖
2023-03-28
MySql直方圖
聊一聊Redis的離線分析
2022-04-18
Redis
聊一聊MySQL的字符集
2022-01-24
MySql
聊一聊MySQL的儲存引擎
2022-01-24
MySql儲存引擎
聊一聊Jmeter的引數化
2021-05-01
JMeter
聊一聊Java的列舉enum
2019-08-01
Java
聊一聊遊戲的壓測
2020-04-18
遊戲
聊一聊橋接（JSBridge）的原理
2021-03-15
橋接JS
聊一聊Javascript中的Promise物件
2018-12-12
JavaScriptPromise物件
簡單聊一聊Vuex的原理
2018-09-14
Vue
聊一聊模板方法模式
2023-05-15
模式
聊一聊測試流程
2020-12-25
聊一聊前端換膚
2019-04-03
前端
聊一聊session和cookie
2018-05-12
SessionCookie
一本正經的聊資料結構（7）：哈弗曼編碼
2020-06-03
資料結構
聊一聊Spring Bean 的生命週期
2023-12-29
SpringBean
聊一聊 SQLSERVER 的行不能跨頁
2022-12-31
SQLServer
聊一聊MySQL索引失效的問題
2022-01-24
MySql索引
[gRPC]來聊一聊gRPC的認證
2021-05-27
RPC
聊一聊RocketMQ的註冊中心NameServer
2020-09-03
MQServer
聊一聊泛型的可空性（kotlin）
2018-11-07
泛型Kotlin
Android、IOS雙端一對一語音聊和一對一視訊聊APP，含原始碼
2019-04-12
AndroidiOSAPP原始碼
==和is的區別以及編碼和解碼
2018-08-02
聊一聊redis十種資料型別及底層原理
2023-05-09
Redis資料型別