爬蟲入門(字串相關)

賈富程發表於2018-12-10

1.字元和字符集

  • 字元(Character)是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。字符集(Character set)是多個字元的集合
  • 字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等
  • ASCII編碼是1個位元組,而Unicode編碼通常是2個位元組。
  • UTF-8是Unicode的實現方式之一,UTF-8是它是一種變長的編碼方式,可以是1,2,3個位元組

2.python3中的字串

在Python2中,普通字串是以8位ASCII碼進行儲存的,而Unicode字串則儲存為16位unicode字串,這樣能夠表示更多的字符集。使用的語法是在字串前面加上字首 u

在Python3中,所有的字串都是Unicode字串。

python3中兩種字串型別:

  • str : unicode的呈現形式
  • bytes :位元組型別,網際網路上資料的都是以二進位制的方式(位元組型別)傳輸的

3.str和bytes的轉換

  • str 使用encode方法轉化為 bytes
    s = 'abc'
    print(type(s))
    #str編碼變為bytes型別
    b = s.encode
    print(type(b))
    複製程式碼
  • bytes 通過decode轉化為 str
    b = b'abc'
    print(type(b))
    #bytes型別解碼成為str型別
    s = b.decode()
    print(type(s))複製程式碼


相關文章