utf-8的中文漢字

技術從未如此性感發表於2018-11-15

原文網址 : https://blog.csdn.net/u013749540/article/details/84104096

從字元編碼講起。
1、美國人首先對其英文字元進行了編碼，也就是最早的ascii碼，用一個位元組的低7位來表示英文的128個字元，高1位統一為0；

2、後來歐洲人發現尼瑪你這128位哪夠用，比如我高貴的法國人字母上面的還有注音符，這個怎麼區分，得，把高1位編進來吧，這樣歐洲普遍使用一個全位元組進行編碼，最多可表示256位。歐美人就是喜歡直來直去，字元少，編碼用得位數少；

3、但是即使位數少，不同國家地區用不同的字元編碼，雖然0--127表示的符號是一樣的，但是128--255這一段的解釋完全亂套了，即使2進位制完全一樣，表示的字元完全不一樣，比如135在法語，希伯來語，俄語編碼中完全是不同的符號；

4、更麻煩的是，尼瑪這電腦高科技傳到中國後，中國人發現我們有10萬多個漢字，你們歐美這256字塞牙縫都不夠。於是就發明了GB2312這些漢字編碼，典型的用2個位元組來表示絕大部分的常用漢字，最多可以表示65536個漢字字元，這樣就不難理解有些漢字你在新華字典裡查得到，但是電腦上如果不處理一下你是顯示不出來的了吧。

5、這下各用各的字符集編碼，這世界咋統一？俄國人發封email給中國人，兩邊字符集編碼不同，尼瑪顯示都是亂碼啊。為了統一，於是就發明了unicode，將世界上所有的符號都納入其中，每一個符號都給予一個獨一無二的編碼，現在unicode可以容納100多萬個符號，每個符號的編碼都不一樣，這下可統一了，所有語言都可以互通，一個網頁頁面裡可以同時顯示各國文字。

6、然而，unicode雖然統一了全世界字元的二進位制編碼，但沒有規定如何儲存啊，親。x86和amd體系結構的電腦小端序和大端序都分不清，別提計算機如何識別到底是unicode還是acsii了。如果Unicode統一規定，每個符號用三個或四個位元組表示，那麼每個英文字母前都必然有二到三個位元組是0，文字檔案的大小會因此大出二三倍，這對於儲存來說是極大的浪費。這樣導致一個後果：出現了Unicode的多種儲存方式。

7、網際網路的興起，網頁上要顯示各種字元，必須統一啊，親。utf-8就是Unicode最重要的實現方式之一。另外還有utf-16、utf-32等。UTF-8不是固定字長編碼的，而是一種變長的編碼方式。它可以使用1~4個位元組表示一個符號，根據不同的符號而變化位元組長度。這是種比較巧妙的設計，如果一個位元組的第一位是0，則這個位元組單獨就是一個字元；如果第一位是1，則連續有多少個1，就表示當前字元佔用多少個位元組。

8、注意unicode的字元編碼和utf-8的儲存編碼表示是不同的，例如"嚴"字的Unicode碼是4E25，UTF-8編碼是E4B8A5，這個7裡面解釋了的，UTF-8編碼不僅考慮了編碼，還考慮了儲存，E4B8A5是在儲存識別編碼的基礎上塞進了4E25。

9、UTF-8 使用一至四個位元組為每個字元編碼。128 個 ASCII 字元（Unicode 範圍由 U+0000 至 U+007F）只需一個位元組，帶有變音符號的拉丁文、希臘文、西裡爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及馬爾地夫語（Unicode 範圍由 U+0080 至 U+07FF）需要二個位元組，其他基本多文種平面（BMP）中的字元（CJK屬於此類-Qieqie注）使用三個位元組，其他 Unicode 輔助平面的字元使用四位元組編碼。

10、常規來看，中文漢字在utf-8中到底佔幾個位元組，一般是3個位元組，最常見的編碼方式是1110xxxx 110xxxxx 10xxxxxx。

Oracle中文漢字佔用位元組
2020-04-05
Oracle
PHP 實現字串翻轉（包含中文漢字）的實現
2019-02-16
PHP字串
mysql 報錯json字串中文漢字轉義的問題
2021-07-08
MySqlJSON字串
iOS 獲取漢字【簡體中文】筆畫數
2019-01-18
iOS
java中文字串漢字轉GBK編碼
2020-12-15
Java字串
ORACLE SQL函式中文漢字轉拼音首字母
2020-11-25
OracleSQL函式
PHP中文GBK編碼轉UTF-8
2019-02-16
PHP
漢字轉漢語拼音
2020-12-03
Win10系統打不出中文漢字如何解決
2018-07-21
Win10
C++ 過濾出字串的中文（GBK，UTF-8）
2019-07-27
C++字串
C#漢字轉漢語拼音
2021-12-21
C#
中文轉換成html中的utf-8的方法例項程式碼
2020-05-20
HTML
Excel表格如何按漢字的筆畫排序？Excel表格按漢字的筆畫排序的方法
2020-10-24
Excel排序
java 漢字轉配音
2019-04-15
Java
只提取漢字部分
2024-04-28
C：漢字儲存
2021-07-20
獲取字串中的所有漢字
2020-05-08
字串
Python 漢字轉拼音的庫--- PyPinyin
2019-05-21
Python
Grafana外掛Plugin中文漢化
2021-01-06
GrafanaPlugin
SqlServer中將字串轉utf-8的函式、支援中文的UrlEncode函式
2022-07-09
SQLServer字串函式
utf-8字元所佔位元組數
2018-11-15
字元
docker 容器指定utf-8編碼，解決中文亂碼
2024-10-14
Docker
mysql 中如何取得漢字欄位的各漢字首字母
2021-09-09
MySql
阿拉伯-漢字-數字轉換
2019-02-16
PHP 將數字轉換為漢字
2024-03-29
PHP
cmd顯示漢字需要的設定
2019-02-25
漢字描紅在Flutter側的落地
2021-04-08
Flutter
漢字編碼問題
2019-01-07
JS 漢字轉換拼音
2019-04-29
JS
Idea編碼UTF-8中.properties 配置檔案中文亂碼
2024-03-19
Idea
utils公共方法：將數字轉為漢字
2024-12-02
蒙納字型檔：深耕漢字美學與技術，讓漢字走向世界
2022-12-12
C#中漢字轉拼音
2018-09-07
C#
漢字之美，拼音之韻
2024-03-23
notepad++搜尋所有漢字
2024-03-18
JavaScript 漢字方式輸出星期
2019-06-10
JavaScript
C#漢字拼音檢索
2019-05-12
C#
html 空白漢字佔位符
2024-11-12
HTML

utf-8的中文漢字

相關文章