Python 編碼處理之 str與Unicode的區別與使用

pythontab發表於2016-09-26

用python處理中文，讀取檔案或訊息時，如果發現亂碼(字串處理，讀寫檔案，print)，大多數人的做法是，呼叫encode/decode進行除錯，並沒有明確思考為何出現亂碼，今天我們來討論一下如何處理編碼問題。

注意: 以下討論為Python2.x版本, Py3k下未測試

除錯時最常出現的錯誤

錯誤1

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)

錯誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

首先

必須有大體概念，瞭解下字符集，字元編碼

ASCII | Unicode | UTF-8 | 等等

字元編碼筆記：ASCII，Unicode和UTF-8

str 和 unicode

str和unicode都是basestring的子類

所以有判斷是否是字串的方法

def is_str(s): return isinstance(s, basestring)

str和unicode 轉換

str -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str

區別

str是位元組串，由unicode經過編碼(encode)後的位元組組成的

宣告方式

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type ‘str‘>

求長度(返回位元組數)

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

unicode才是真正意義上的字串，由字元組成

宣告方式

>>> s = u‘中文‘ 
>>> s = ‘中文‘.decode(‘utf-8‘) 
>>> s = unicode(‘中文‘, ‘utf-8‘)  
>>> type(u‘中文‘) <type ‘unicode‘>

求長度(返回字元數),在邏輯中真正想要用的

>>> u‘中文‘ u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2

結論

搞明白要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上可以對str進行encode的，具體見最後，為了保證簡單，不建議)

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

不同編碼轉換,使用unicode作為中間編碼

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

檔案處理,IDE和控制檯

處理流程，可以這麼使用，把python看做一個水池，一個入口，一個出口

入口處，全部轉成unicode, 池裡全部使用unicode處理，出口處，再轉成目標編碼(當然，有例外，處理邏輯中要用到具體編碼的情況)

讀檔案外部輸入編碼，decode轉成unicode 處理(內部編碼，統一unicode) encode轉成需要的目標編碼寫到目標輸出(檔案或控制檯)

IDE和控制檯報錯，原因是print時，編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

建議

規範編碼

統一編碼，防止由於某個環節產生的亂碼

環境編碼，IDE/文字編輯器, 檔案編碼，資料庫資料表編碼

保證程式碼原始檔編碼

這個很重要

py檔案預設編碼是ASCII, 在原始碼檔案中，如果用到非ASCII字元，需要在檔案頭部進行編碼宣告文件

不宣告的話，輸入非ASCII會遇到的錯誤,必須放在檔案第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

宣告方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部宣告coding=utf-8, a = ‘中文‘ 其編碼為utf-8

若頭部宣告coding=gb2312, a = ‘中文‘ 其編碼為gbk

so, 同一專案中所有原始檔頭部統一一個編碼,並且宣告的編碼要和原始檔儲存的編碼一致(編輯器相關)

在原始碼用作處理的硬編碼字串，統一用unicode

將其型別和原始檔本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意這裡 s到這裡時，確保轉為unicode

以上幾步搞定後，你只需要關注兩個 unicode和你設定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

相關模組及一些方法

獲得和設定系統預設編碼

>>> import sys 
>>> sys.getdefaultencoding() ‘ascii‘  
>>> reload(sys) <module ‘sys‘ (built-in)> 
>>> sys.setdefaultencoding(‘utf-8‘) 
>>> sys.getdefaultencoding() ‘utf-8‘ 
>>> str.encode(‘other_coding‘)

在python中，直接將某種編碼的str進行encode成另一種編碼str

#str_A為utf-8 str_A.encode(‘gbk‘) 執行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 這裡sys_codec即為上一步 sys.getdefaultencoding() 的編碼

‘獲得和設定系統預設編碼‘和這裡的str.encode是相關的，但我一般很少這麼用，主要是覺得複雜不可控,還是輸入明確decode，輸出明確encode來得簡單些

chardet

檔案編碼檢測，下載

>>> import chardet 
>>> f = open(‘test.txt‘,‘r‘) 
>>> result = chardet.detect(f.read()) 
>>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

\u字串轉對應unicode字串

>>> u‘中‘ u‘\u4e2d‘  
>>> s = ‘\u4e2d‘ 
>>> print s.decode(‘unicode_escape‘) 中  
>>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ 
>>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘

ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
Python 編碼轉換與中文處理
2021-09-09
Python
Effective Python（3）- 瞭解 bytes 與 str 的區別
2021-11-13
Python
[轉]使用 SAX 處理 XML 文件和與DOM的區別
2011-08-05
XML
異常處理機制(一)之throw與throws的區別
2023-11-13
字元編碼與檔案處理
2020-11-25
字元
Python編解碼問題與文字檔案處理
2021-06-19
Python
聊一聊編碼與亂碼的區別
2017-12-25
python str與bytes之間的轉換
2020-10-22
Python
【python】str與json型別轉換
2018-05-18
PythonJSON型別
JavaScript 如何正確處理 Unicode 編碼問題！
2019-01-08
JavaScriptUnicode
JavaScript如何正確處理Unicode編碼問題！
2019-01-07
JavaScriptUnicode
char str[]和char *str的區別
2014-09-15
【廖雪峰python入門筆記】Unicode編碼_UnicodeDecodeError處理
2018-07-05
Python筆記UnicodeError
ANSI 與 ASCII 的區別，編碼老問題
2024-10-10
ASCII
Python 3的bytes/str之別
2012-02-26
Python
NIO框架之MINA原始碼解析（四）：粘包與斷包處理及編碼與解碼
2014-09-11
框架原始碼
PHPCookie與Session的使用與區別
2017-11-27
PHPCookieSession
python unicode 編碼整理
2016-10-24
PythonUnicode
Python編碼和Unicode
2013-11-25
PythonUnicode
RapidJSON 程式碼剖析（三）：Unicode 的編碼與解碼
2015-06-03
APIJSONUnicode
Python中 ‘==‘ 與‘is‘的區別
2024-04-02
Python
Python引用型別和值型別的區別與使用
2017-07-14
Python型別
阿呆學Unicode之編碼
2012-02-26
Unicode
Rust中 String、str、&str、char 的區別
2024-07-10
Rust
字元編解碼的故事（ASCII，ANSI，Unicode，Utf-8區別）
2017-08-28
字元ASCIIUnicode
Python中eval與exec的使用及區別
2018-10-19
Python
Python中str()和repr()函式的區別
2017-12-25
Python函式
python學習之isinstance與type的區別
2018-06-07
Python
python與編碼
2016-09-01
Python
python中的str和repr函式的區別
2019-01-06
Python函式
USB3.0與USB2.0編碼方式的區別
2024-08-07
Python基本資料型別之str
2016-10-13
Python資料型別
String str=null; 和String str=""的區別
2017-07-23
Null
Python collections.defaultdict() 與 dict的使用和區別
2013-10-23
Python
python None與Null 的區別
2013-06-25
PythonNoneNull
synchronized與Lock的區別與使用詳解
2018-11-03
synchronized
mysql與redis的區別與使用場景
2020-12-23
MySqlRedis

Python 編碼處理之 str與Unicode的區別與使用

str 和 unicode

結論

建議

相關文章