1.字元和字符集
- 字元(Character)是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。字符集(Character set)是多個字元的集合
- 字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等
- ASCII編碼是1個位元組,而Unicode編碼通常是2個位元組。
- UTF-8是Unicode的實現方式之一,UTF-8是它是一種變長的編碼方式,可以是1,2,3個位元組
2.python3中的字串
在Python2中,普通字串是以8位ASCII碼進行儲存的,而Unicode字串則儲存為16位unicode字串,這樣能夠表示更多的字符集。使用的語法是在字串前面加上字首 u。
在Python3中,所有的字串都是Unicode字串。
python3中兩種字串型別:
- str : unicode的呈現形式
- bytes :位元組型別,網際網路上資料的都是以二進位制的方式(位元組型別)傳輸的
3.str和bytes的轉換
- str 使用encode方法轉化為 bytes
s = 'abc' print(type(s)) #str編碼變為bytes型別 b = s.encode print(type(b)) 複製程式碼
- bytes 通過decode轉化為 str
b = b'abc' print(type(b)) #bytes型別解碼成為str型別 s = b.decode() print(type(s))複製程式碼