字元編碼發展史1 — ASCII和EASCII

陌尘(MoChen)發表於2024-09-16

原文網址 : https://www.cnblogs.com/luoweifu/p/18416694

1. 字符集與字元編碼
- 1.1. 字符集
- 1.2. 字元編碼
- 1.3. 兩者的關係
2. 字元編碼的發展歷史
- 2.1. 第一個階段 ASCII編碼
  - 2.1.1. ASCII
  - 2.1.2. EASCII

1. 字符集與字元編碼

1.1. 字符集

字符集（Charcater Set或Charset）： 是一個系統支援的所有抽象字元的集合，也就是一系列字元的集合。字元是各種文字和符號的總稱，包括各國家文字、標點符號、圖形符號、數字等。常見的字符集有：ASCII字符集、GB2312字符集(主要用於處理中文漢字)、GBK字符集(主要用於處理中文漢字)、Unicode字符集等。

1.2. 字元編碼

字元編碼（Character Encoding）： 是一套法則，使用該法則能夠對自然語言使用的字符集（如字母表或音節表），與計算機能識別的二進位制數字進行配對。即它能在符號集合與數字系統之間建立對應關係，是資訊處理的一項基本技術。通常人們用符號集合（一般情況下就是文字）來表達資訊，而計算機系統則是以二進位制的數字來儲存和處理資訊的。字元編碼就是將符號轉換為計算機能識別的二進位制編碼。

1.3. 兩者的關係

一般一個字符集等同於一種編碼方式，如ASCII、GB2312、GBK等。一般我們說一種編碼都是針對某一特定的字符集。

一個字符集上也可以有多種編碼方式，如Unicode字符集有UTF-8、UTF-16、UTF-32等編碼方式。所以字符集與字元編碼是一對一或一對多的關係。

file

一句話表示：

字符集：是要表達的所有字元的集合。
字元編碼：是將字符集裡每一個字元與二進位制資料進行一一對映的的規則和機制。

2. 字元編碼的發展歷史

從計算機字元編碼的發展歷史來看，大概經歷了三個階段：

第一個階段: ASCII編碼
第二個階段: 字元編碼本地化——ANSI系列編碼
第三個階段: 字元編碼國際化——Unicode字符集和Unicode編碼

2.1. 第一個階段 ASCII編碼

第一個階段：ASCII字符集和ASCII編碼。

2.1.1. ASCII

計算機最早誕生於美國，剛開始計算機只支援英語(即拉丁字元)，其它語言不能夠在計算機上儲存和顯示。ASCII用一個位元組(Byte)的7位(bit)表示一個字元，第一位(即最高位)置0，低7位用來編碼字符集，共能表達2^7（即128）個字元。

ASCII的這種編碼方式即為ASCII編碼，ASCII編碼的字符集即為ASCII字符集。ASCII字符集包含的內容有：26個小英文字母、26個大英文字母、英文標點符號，10個阿拉伯數字、以及非列印的（不能顯示）控制符號。

file
圖1 ASCII編碼表

2.1.2. EASCII

用ASCII碼錶達英語基本上沒什麼問題，但是當英語中包含一些外來詞（如naïve、café、élite等)時，ASCII碼就沒有辦法表達了，所有重音符號都不得不去掉。

後來為了表示更多的歐洲常用字元又對ASCII進行了擴充套件，於是有了EASCII(Extended ASCII)，EASCII用8位表示一個字元，使它能多表示128個字元，支援了部分西歐字元。

file
圖2 擴充套件ASCII編碼表

至此，ASCII + EASCII能表達256(2^8)個字元，基本能滿足英語國家和歐洲部分國家的需求。

注意： EASCII碼目前幾乎不再使用了，很早就被廢棄掉了，被更先進的ISO/IEC 8859-N字元編碼方案替代了。

未完待續…… 欲知後事如何，請看下回分解。

下回預告：字元編碼發展史2 — IOS 8859-N。

大家好，我是陌塵。

IT從業10年+, 北漂過也深漂過，目前暫定居於杭州，未來不知還會飄向何方。

搞了8年C++，也幹過2年前端；用Python寫過書，也玩過一點PHP，未來還會折騰更多東西，不死不休。

感謝大家的關注，期待與你一起成長。

【SunLogging】

掃碼二維碼，關注微信公眾號，閱讀更多精彩內容

字元編碼發展史5 — UTF-16和UTF-32
2024-10-07
字元
字元編碼發展史2 — ISO-8859-N
2024-09-18
字元
字元編碼發展史4 — Unicode與UTF-8
2024-09-27
字元Unicode
字元編碼發展史6 — BOM位元組序標記
2024-10-10
字元
[20210422]如何檢視字元的ascii編碼.txt
2021-04-23
字元ASCII
c語言中文和ascii碼字元分離
2021-01-03
C語言ASCII字元
ASCII編碼的全面介紹
2024-04-01
ASCII
python教程3.3：字元和編碼
2024-05-04
Python字元
字元編碼
2024-04-08
字元
輸入一個ASCII碼，輸出對應的字元
2019-03-05
ASCII字元
JavaScript編寫計算器的發展史
2021-07-11
JavaScript
字串-字元編碼
2019-03-17
字串字元
聊聊字元編碼
2019-01-23
字元
IDEA如何設定編碼格式，字元編碼，全域性編碼和專案編碼格式
2024-11-18
Idea字元
1.3.0 Python 字元編碼
2019-01-19
Python字元
字元編碼轉換
2020-04-04
字元
圖解字元編碼
2019-04-25
圖解字元
字元編碼問題
2024-06-15
字元
Unicode、GBK、UTF-8、ASCII的編碼簡介
2020-04-06
UnicodeASCII
ANSI 與 ASCII 的區別，編碼老問題
2024-10-10
ASCII
字符集編碼（二）：字元編碼模型
2022-02-23
字元模型
字元編碼那些事兒
2021-09-09
字元
架構師必須掌握的各種編碼：ASCII、ISO-8859-1、GB2312
2018-05-05
架構ASCII
遊戲發展史：《全面戰爭》系列（1）：開端
2020-04-29
遊戲
前端部署發展史
2019-11-07
前端
ebpf發展簡史
2024-12-01
eBPF
Linux發展歷史
2022-02-15
Linux
帶貨直播系統原始碼的發展史
2020-07-20
原始碼
MySQL 8.0 Reference Manual（讀書筆記34節-- 字元編碼(1)）
2024-04-12
MySql筆記字元
前端開發中需要搞懂的字元編碼知識
2022-04-29
前端字元
MySQL 中字元編碼問題
2019-12-24
MySql字元
字元編碼問題記錄
2019-05-12
字元
MySQL字元編碼設定方法
2021-09-09
MySql字元
深度學習發展史
2018-10-24
深度學習
區塊鏈發展史
2018-10-30
區塊鏈
JAVA日誌發展史
2021-12-12
Java
iOS歷史（iOS系統發展歷史）
2019-07-11
iOS
[原始碼解析] PyTorch 分散式(1)------歷史和概述
2021-11-03
原始碼PyTorch分散式