python中字串的編碼和解碼

Dog.泰迪發表於2020-11-29

原文網址 : https://www.cnblogs.com/xm-python/p/14058263.html

1. 常用的編碼

ASCII:只能表示一些字母，數字和特殊的字元，佔一個位元組
GBK：國家簡體中文字符集和繁體字符集，相容ASCII，佔兩個位元組
Unicode：能夠表示全世界上所有的字元，Unicode有人說佔4個位元組也有人說佔2個位元組，但中文佔2個位元組
UTF-8：Unicode的壓縮版，佔1~3個位元組，其中中文佔三個位元組

2.補充:計算機表示的單位：

bit：位，計算機最小的表示單位
bytes：位元組，最小的儲存單位，1bytes=8bit，1bytes簡寫成1B
1KB = 1024B
1MB = 1024KB
1GB = 1024MB
1TB = 1024GB
......

3.ASCII編碼

ASCII編碼是基於拉丁字母一套編碼，主要是顯示現代英語和其西歐語言，是最早通用的單位元組編碼系統,具體ASCII對照表如下：

在對照表中需要記住的是大寫字母A的編碼是65，小寫字母a的編碼的97即可。
在python中可以使用chr和ord方法進行轉換：

# 將數字型別轉換成ASCII對應的字元
print(chr(97))  # a
# 將數字轉換成對應的資料
print(ord("A"))  # 65
# 或者使用

但隨著事件的發展，ASCII編碼擴充套件到了256個字元，編碼對照表如下：

其中後128個字元稱為擴充套件ASCII碼

2.GBK和GB2312編碼

由於ASCII編碼只能由256個字元組成，然只能由1個位元組來表示中文是不可能的，因此制定了GB2312編碼，用來表示中文的對照表

4.Unicode

為了解決各個國家編碼衝突的問題，Unicode編碼就因此而生，Unicode把所有語言都統一到一套編碼裡面，就會避免衝突，產生亂碼。
Unicodeb標準在不斷髮展，最常用的是用兩個位元組表示一個字元，也有的字元是4個位元組，但是中文是佔兩個位元組。如果統一成Unicode編碼，在儲存和傳輸上就不划算

5.UTF-8編碼

為了解決Unicode編碼儲存過大的問題，就推出了可變長編碼UTF-8，UTF-8編碼把一個Unicode字元依據不同的資料大小程式設計1~6個位元組，其中中文就佔3個位元組

6.編碼和解碼

1.編碼操作

可以通過encode進行編碼，其中語法如下：

對字串進行ASCII編碼(只能轉換數字，英文字母和一些符號)

# 方式1： 通過bytes方法
bytes('a', 'ASCII')
# 方式2:  通過encode方法進行
'a'.encode('ASCII')

將字串轉換成gbk編碼格式

# 方式1:  通過encode方法進行
print('你好'.encode('GBK'))  # 編碼之後的結果為:b'\xc4\xe3\xba\xc3'
# 方式2: 通過bytes型別
print(bytes('我愛你', 'GBK'))  # 編碼之後的結果為:b'\xce\xd2\xb0\xae\xc4\xe3'

將字串轉換成Unicode編碼格式

# 方式1:  通過encode方法進行
print('你好'.encode('unicode_escape'))  # 編碼之後的結果為:b'\\u4f60\\u597d'
# 方式2: 通過bytes型別
print(bytes('我愛你', 'unicode_escape'))  # 編碼之後的結果為:b'\\u6211\\u7231\\u4f60'

將字串轉換成UTF-8編碼格式

# 方式1:  通過encode方法進行
print('你好'.encode('utf-8'))  # 編碼之後的結果為:b'\xe4\xbd\xa0\xe5\xa5\xbd'
# 方式2: 通過bytes型別
print(bytes('我愛你', 'utf-8'))  # 編碼之後的結果為:b'\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0'

2.解碼操作

將GBK編碼格式轉換成字串

# 通過decode方法解碼
print(b'\xc4\xe3\xba\xc3\xce\xd2\xb0\xae\xc4\xe3'.decode('GBK'))  # 解碼之後結果為：你好我愛你

將UTF-8編碼格式轉換成字串

# 通過decode方法解碼
print(b'\xe4\xbd\xa0\xe5\xa5\xbd\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0'.decode('utf-8'))  # 解碼之後結果為：你好我愛你

將Uniconde編碼格式轉換成字串

# 通過decode方法解碼
print(b'\\u4f60\\u597d\\u6211\\u7231\\u4f60'.decode('GBK'))  # 解碼之後結果為：你好我愛你

MMKV的編碼和解碼
2019-03-16
Java 8中的Base64編碼和解碼
2019-03-26
Java
python中的編碼&解碼
2024-08-31
Python
==和is的區別以及編碼和解碼
2018-08-02
CKKS Part2: CKKS的編碼和解碼
2022-02-05
[java IO流]之編碼和解碼
2021-02-10
Java
字串-編碼
2019-03-18
字串
字串編碼
2018-09-04
字串編碼
python基礎之字串和編碼
2019-10-11
Python字串
Rust中字串的base64編碼與解碼
2022-09-21
Rust字串
C++中的字串編碼處理
2023-05-15
C++字串編碼
JS字串編碼
2018-10-26
JS字串編碼
字串-字元編碼
2019-03-17
字串字元
簡述小資料池,編碼和解碼
2018-12-03
java安全編碼指南之:字串和編碼
2020-09-16
Java字串
結合例項學習|字元編碼和解碼
2020-09-27
字元
Python3學習筆記-字串和編碼
2018-12-20
Python筆記字串
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
字串編碼入門科普
2019-03-04
字串編碼
Java字串編碼介紹
2019-01-27
Java字串編碼
一篇文章助你理解Python2中字串編碼問題
2018-12-11
Python字串編碼
一篇文章助你理解Python3中字串編碼問題
2018-12-14
Python字串編碼
netty系列之:自定義編碼和解碼器要注意的問題
2021-08-18
Netty
python編碼
2018-05-12
Python
url編碼和解碼分析URLEncoder.encode和URLDecoder.decode
2024-04-21
『無為則無心』Python基礎 — 9、Python字串的編碼與轉義
2021-06-27
Python字串
人人都能學會的python程式設計教程3：字串和編碼
2018-05-10
Python程式設計字串
netty系列之:netty中常用的字串編碼解碼器
2022-05-12
Netty字串編碼
Python 中文編碼
2018-10-11
Python
python字串怎麼解碼？
2021-09-11
Python字串
linux-原始碼的編譯安裝和解除安裝
2018-08-20
Linux原始碼編譯
seq2seq通俗理解----編碼器和解碼器(TensorFlow實現)
2019-08-30
Java 正確的做字串編碼轉換
2018-08-09
Java字串編碼
python 安全編碼&程式碼審計
2020-08-19
Python
Python基礎：編碼
2019-03-19
Python
1.3.0 Python 字元編碼
2019-01-19
Python字元
Python安全編碼指南
2020-08-19
Python
python編碼規範
2021-09-09
Python