兩個"�"="錕斤拷"？

程式猿石頭發表於2021-02-23

原文網址 : https://www.cnblogs.com/leitang/p/14438892.html

關於作者：程式猿石頭(ID: tangleithu)，現任阿里巴巴技術專家，清華學渣，前大疆後端 Leader。歡迎關注，交流和指導！

本文首發於微信公眾號，原文連結，轉載請全文保留。

以一首七言絕句作為開篇：

手持兩把錕斤拷

口中疾呼燙燙燙

腳踏千朵屯屯屯

笑看萬物鍩鍩鍩

� 為何物？

在上次石頭哥發的這篇文章中 —— 你可能也會掉進這個簡單的 String 的坑，講述了因字元編碼問題而連續踩坑的經歷，文中有一個神奇的字元 “�”。

其實，這個 “�” 真是無處不在，比如大名鼎鼎的微信：

再比如，封面圖中，單價22元的“錕斤拷錕斤拷”，再隨便百度一把：

要弄清這個問題，還得先從編碼談起。

因為在計算機的眼裡，都是二進位制，具體用哪些二進位制數字表示哪個符號，這就是編碼。不要把編碼想象得太複雜，其實就是一個很簡單的 mapping。

比如大家所熟知的 ASCII 編碼，規定了
二進位制的0100 0001，也就是十進位制的65，代表的含義就是大寫字母 A。

� 也是一種編碼字元，就跟上面的 A 一樣一樣的，它是 UNICODE 編碼方式中的一個特殊的字元，也就是 0xFFFD(65533)，語義是一個佔位符(REPLACEMENT CHARACTER)，用來表達未知的，自己不認識的東西。

比如上篇文章中的實驗截圖的，紅色部分圈出來的對應的字元，UTF-8 編碼都不認識，所以按照 UNICODE 的定義，我就只好用統一的一個佔位符 —— 0xFFFD(65533) 來表示。

為什麼會出現“錕斤拷”？

我們接著上篇的例子來看，如下圖所示，仍然從 “程式猿石頭” 對應二進位制編碼擷取部分：

如上圖所示，第 18 行的位元組陣列 new byte[] {-25, -119, -25, -116}，UTF-8 恰好都不認識，因此只能用佔位符替換。

這種情況，在編碼轉換過程中確實也比較常見，如果雙方沒溝通清楚，確實很容易出現互相不認識的情況。

在中文系統中，常見的字元編碼是 GBK，這個時候，因為大家沒提前商量清楚，我就預設按照 GBK 給你編碼看看。

驚不驚喜意不意外……

其實是因為，� 用 UTF-8 編碼後變成了 0xEFBFBD（就是上面的位元組陣列 [-17, -65, -67]），兩個連起來就是 0xEFBFBDEFBFBD，也就是上面的位元組陣列[-17, -65, -67, -17, -65, -67]。

而 GBK 編碼依然採用雙位元組編碼方案，因此上面的 6 位元組 0xEFBFBDEFBFBD，就被拆成了 3 個 2 位元組字元即 0xEFBF, 0xBDEF, 0xBFBD 對應 GBK 編碼裡面就是：錕（0xEFBF），斤（0xBDEF），拷（0xBFBD）

<,,

現在，你知道了嗎？

留個作業題：開篇的七言絕句，你知道另外的梗是來自哪裡嗎？歡迎留言討論。

最近看到一份來自阿里巴巴開源的學習資料，涵蓋了大前端、客戶端、服務端、演算法等多個技術領域，全書內容⻚數1600+，現在分享給大家。點選原文獲取。

“錕斤拷”的前世今生
2020-09-20
錕斤拷個人解決辦法
2019-06-09
燙燙燙、屯屯屯、錕斤拷、諾諾諾的簡單示例程式碼
2018-03-04
享受工作系列——四兩撥千斤
2019-02-27
我是如何兩週瘦12斤的......
2024-05-27
js 深拷貝兩種方法
2018-08-10
JS
兩次拷貝操作的故事
2021-08-19
安卓/Java物件拷貝（淺/深拷貝、兩種序列化、Beans等工具）
2018-08-30
安卓Java物件Bean
四兩撥千斤——你不知道的VScode編碼TypeScript的技巧
2021-09-09
VSCodeTypeScript
深拷貝和淺拷貝的區別是什麼？實現一個深拷貝
2020-03-06
資料洪流來襲，企業轉型勢不可擋，如何四兩撥千斤？
2018-06-08
14 個拷貝陣列的 JS 技巧
2019-11-12
陣列JS
淺拷貝&深拷貝
2018-10-17
短視訊時期，實體商家如何“四兩撥千斤”實現營銷轉型?
2021-12-16
python 指標拷貝，淺拷貝和深拷貝
2020-03-09
Python指標
淺拷貝與深拷貝
2018-12-19
淺拷貝和深拷貝
2020-11-02
深拷貝和淺拷貝
2020-03-26
QQ模擬登入實現之四兩撥千斤（基於V8引擎）
2020-08-19
C++拷貝建構函式(深拷貝，淺拷貝)
2018-05-28
C++函式
jquery之物件拷貝深拷貝淺拷貝案例講解
2020-10-25
jQuery物件
一文搞懂Java引用拷貝、淺拷貝、深拷貝
2020-12-18
Java
Java深拷貝和淺拷貝
2019-03-25
Java
Python淺拷貝與深拷貝
2019-02-16
Python
物件深拷貝和淺拷貝
2019-03-04
物件
JavaScript深拷貝和淺拷貝
2019-01-23
JavaScript
javascript 淺拷貝VS深拷貝
2018-08-11
JavaScript
JavaScript 深度拷貝和淺拷貝
2018-09-26
JavaScript
js 淺拷貝和深拷貝
2018-07-18
JS
JS深拷貝與淺拷貝
2019-10-21
JS
iOS深拷貝和淺拷貝
2019-10-09
iOS
python深拷貝與淺拷貝
2020-11-08
Python
js 深拷貝和淺拷貝
2022-03-30
JS
JavaScript淺拷貝和深拷貝
2020-12-30
JavaScript
淺談深拷貝與淺拷貝？深拷貝幾種方法。
2019-10-17
面試題 | 請實現一個深拷貝
2020-03-01
面試題
SCP和Rsync遠端拷貝的幾個技巧
2018-03-08
正則以及淺拷貝深拷貝
2019-03-20

兩個"�"="錕斤拷"？

� 為何物？

為什麼會出現“錕斤拷”？

相關文章