【python系統學習16】編碼基礎知識

xing.org1^發表於2020-05-30

Python

編碼

計算機是怎麼傳輸和儲存資料的？

就是把人類認識的中英文字、其他國家語言、數字甚至運算子等符號轉成二進位制的0、1，並進行儲存和傳輸。

編碼

人類語言：中英文字、其他國家語言、數字甚至運算子等符號

計算機語言：二進位制的0、1【沒錯，計算機只認識0和1】

編碼：將人類語言轉換為計算機語言。

除了0、1這些阿拉伯數字，像a、b、c這樣的52個字母（包括大小寫），還有一些常用的符號（例如*、#、@等）在計算機中儲存時也要使用二進位制數來表示，而具體用哪些二進位制數字表示哪個符號，理論上每個人都可以有自己的一套規則（這就叫編碼規則，形成編碼表）。

如果使用了不同的編碼規則，就會有計算機識別不了的情況，出現亂碼。

進位制

二進位制、八進位制、十六進位制。

八進位制和十六進位制分別是二進位制的3次方和4次方。方便和二進位制之間非常直接的相互轉換

二進位制

由0和1構成的

二進位制	十進位制
00	0
01	1
10	2
11	3
100	4
101	5
110	6
111	7
1000	8

二進位制的00，代表十進位制的0
二進位制的01，代表十進位制的1
二進位制的10，代表十進位制的2【笑話：世界上有10種人，懂二進位制的和不懂二進位制的】
二進位制的11，代表十進位制的3
二進位制的100，代表十進位制的4
以此類推...

當有兩位數時，我們可以表示0到3，共4種狀態，即2的平方
當有三位數時，我們可以表示0到7，共8種狀態，即2的三次方
當有八位數時，我們可以表示0到255，共256種狀態，即2的8次方

八進位制

使用0、1、2、3、4、5、6、7組成的

十六進位制

使用0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f組成的

ASCII編碼表中的“K”

二進位制	八進位制	十進位制	十六進位制	字母
01001011	113	75	4B	K

注意這裡還是大寫的字母K哦～

儲存單位

計算機裡的儲存單位

位/位元（bit）

位：又叫位元（bit）是計算機裡最小的儲存單位。用來存放一位二進位制書，即0或1。

位元組（byte）

八個位元是一個位元組，是計算機裡最常用的單位。簡寫“B”

千位元組（Kilobyte）

兆位元組（Megabyte）

簡稱“兆”

吉位元組（Gigabyte）

又叫千兆

單位換算

1B(byte 位元組) = 8bit
1KB(Kilobyte 千位元組) = 1024B
1MB(Megabyte 兆位元組) = 1024KB
1GB(Gigabyte) = 1024MB

為什麼辦的100兆的寬頻，撐死就只有10幾兆的下載速度？

因為運營商的頻寬是以位元每秒為單位的，比如100M就是100Mbit/s。

而我們常看到的下載速度KB卻是以位元組每秒為單位顯示的，1byte = 8bit，所以運營商說的頻寬得先除以8，你的百兆寬頻下載速度，也就是十幾兆了。

編碼表

為了避免亂碼，人類就約定了一套共同的編碼規則。就像計算機世界的新華字典、牛津英語字典。

編碼表歷史

ASCII

ASCII編碼（讀音：/ˈæski/），美國首先出臺。統一規定了常用符號用哪些二進位制數來表示。因為英文字母、數字再加上其他常用符號，也就100來個，因此使用7個位元位（最多表示128位）就夠用了，所以一個位元組中被剩下的那個位元位就被預設為0。
但歐洲不光有英語，還有法語字母上的注音符。於是歐洲用了美國剩下的那個位元位，普遍使用一個全位元組（8個位元位）進行編碼，最多可表示256位，至此，一個位元組就用滿了！

ASCII統一了前面0-127位，但從狀態128到255這一段的解釋就完全亂套了，比如135在法語，希伯來語，俄語編碼中完全是不同的符號。

GB2312和GBK

中國10萬漢字，256位也不夠用。於是一張新編碼表GB2312被中國科學家發明了。用2個位元組，也就是16個位元位，來表示絕大部分（65535個）常用漢字。後來，為了能顯示更多的中文，又出臺了GBK標準。

Unicode

因各個國家的編碼表都不同。不同國家間通訊又會亂碼。

於是Unicode（萬國碼）來統一。這套編碼表將世界上所有的符號都納入其中。每個符號都有一個獨一無二的編碼，現在Unicode可以容納100多萬個符號，所有語言都可以互通，一個網頁上也可以顯示多國語言。

萬國碼的缺點是讓英文字元被迫佔用兩個位元組，耗費計算機儲存空間。（如A：用00010001就行，但是為了順從統一，需要用兩個位元組：00000000 00010001）

UTF-8

UTF-8（8-bit Unicode Transformation Format）被提出。針對Unicode的可變長度字元編碼。它可以使用1~4個位元組表示一個符號，根據不同的符號而變化位元組長度。而當字元在ASCII碼的範圍時，就用一個位元組表示，所以UTF-8還可以相容ASCII編碼。

Unicode與UTF-8這種曖昧的關係一言以蔽之：Unicode是記憶體編碼的規範，而UTF-8是如何儲存和傳輸Unicode的手段。

編碼表對比

編碼表	適用性	特點
ASCII碼	英文大小寫，字元，不支援中文	美國人發明，佔用空間小，用一個位元組就行
GB2312碼、GBK碼	支援中文	中國人發明，GBK是GB2312的升級，增加了更多原來沒有的文字字元
Unicode碼	支援國際語言，萬國碼	適用性強但佔用空間大。在ASCII碼前面補8個bit位就是Unicode碼
UTF-8碼	支援國際語言	Unicode的升級，兩者容易互相轉化。佔用空間小、適用性強。ASCII碼被UTF-8碼包含。

編碼方案使用情況表

編碼表	當前使用情況	備註
ASCII碼	-	-
GB2312碼、GBK碼	中文的檔案和中文網站，使用GBK、GB2312	-
Unicode碼	計算機記憶體中處理資料時使用的統一標準格式	Python3中，程式處理我們輸入的字串使用Unicode編碼
UTF-8碼	資料在硬碟上儲存，或者網路上傳輸時，用的UTF-8	因為節省空間。程式來轉換編碼。

基於上表，有時候面對不同編碼的資料，我們還需要手動操作實現編碼轉換。就要用到encode(編碼)和decode(解碼)。

編碼操作和解碼操作

編碼：`encode()`

語法：

'你想編碼的內容'.encode('你使用的編碼表名稱')

用法：

print('一天打魚兩個月曬網的小石頭'.encode('utf-8'))
# b'\xe4\xb8\x80\xe5\xa4\xa9\xe6\x89\x93\xe9\xb1\xbc\xe4\xb8\xa4\xe4\xb8\xaa\xe6\x9c\x88\xe6\x99\x92\xe7\xbd\x91\xe7\x9a\x84\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'
print('I Love U'.encode('gbk'))
# b'I Love U'
print('小石頭'.encode('utf-8'))
# b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'

將上述人類語言編碼得到機器語言後的列印結果在註釋裡。

字母b

這裡之所以有個字母b，代表他是bytes（位元組）型別的資料。可以用type()函式驗證一下：

print(type(b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4')) # <class 'bytes'>

符號\x

另外，幾乎每個字母/數字前邊都有的\x，他的作用是分隔符，用來分隔一個位元組和另一個位元組。

這樣的分隔符，我們還見過：

<a href="https://www.baidu.com/s?wd=%e5%b0%8f%e7%9f%b3%e5%a4%b4" />

對比發現下邊兩段字串，你有發現什麼奧妙麼！：

%e5%b0%8f%e7%9f%b3%e5%a4%b4
\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4

%和\x一樣，都是一種分隔符。只不過%是url中的、\x是python中的

解碼：`decode()`

語法：

'你想解碼的內容'.encode('你使用的編碼表名稱')

用法：

print(b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'.decode('UTF-8')) # 小石頭

::: warning 注意你要解碼的內容得跟編碼時用的編碼表一致。不然會報錯。 :::

也就是說，UTF-8編碼的位元組就一定要用UTF-8的規則解碼，其他編碼同理，否則就會出現亂碼或者報錯的情況，

print(b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'.decode('GBK'))
# 把utf-8編碼的字串用GBK來解碼，就報錯了。
# UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 8: incomplete multibyte sequence

python基礎（16）：學生資訊管理系統——Python編寫（附全部程式碼）
2022-12-02
Python
學習電腦編碼utf-8,ansi編碼的基礎知識等
2018-09-25
Python知識體系-Python2基礎知識
2019-05-08
Python
Redis基礎知識（學習筆記16--持久化 (2)）
2024-07-12
Redis筆記持久化
JavaWeb基礎知識總結：如何系統學習spring boot？
2018-10-16
JavaWebSpring Boot
MySQL 基礎知識梳理學習（一）—-系統資料庫
2019-01-05
MySql資料庫
Android基礎知識學習
2020-11-28
Android
python基礎學習16—-模組
2018-09-20
Python
Python學習筆記—day1—基礎知識
2019-02-27
Python筆記
基礎知識學習筆記
2020-09-28
筆記
python基礎知識
2024-03-14
Python
python 基礎知識
2021-09-09
Python
【編測編學】MySQL資料庫基礎知識
2020-12-28
MySql資料庫
JavaSE基礎知識學習—–多型
2019-02-25
Java多型
JavaSE基礎學習知識整理大全
2018-08-30
Java
RxJava 學習筆記 -- 基礎知識
2018-09-06
RxJava筆記
怎麼學習基礎知識啊？
2023-05-19
機器學習基礎知識1
2020-10-24
機器學習
go語言學習-基礎知識
2018-03-25
Go
JVM學習之JVM基礎知識
2020-11-23
JVM
推薦系統基礎知識（二）
2020-12-06
【編測編學】MySQL資料庫基礎知識2
2020-12-29
MySql資料庫
02.統計學基礎知識
2021-04-01
Python基礎知識1
2018-11-15
Python
Python基礎知識整理
2019-03-08
Python
Python基礎知識分享
2018-03-12
Python
python基礎必學的語法知識
2020-03-11
Python
Python入門基礎知識學什麼?
2021-09-16
Python
MySQL 基礎知識梳理學習（四）—-GTID
2019-01-13
MySql
iOS 基礎知識學習目錄索引
2018-06-02
iOS索引
【學習】MySQL基礎知識要點-001
2018-03-28
MySql
Python基礎：編碼
2019-03-19
Python
小豬的Python學習之旅 —— 1.基礎知識儲備
2019-03-03
Python
Kafka訊息系統基礎知識索引
2018-12-18
Kafka索引
OpenSSL 入門：密碼學基礎知識
2020-01-23
密碼學
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
Python基礎知識之字典
2019-02-16
Python
Python基礎知識之集合
2019-02-16
Python