python中文亂碼問題大總結

pythontab發表於2013-07-02

在執行這樣類似的程式碼：

#!/usr/bin/env python
s="中文"
print s

最近經常遇到這樣的問題：

問題一：SyntaxError: Non-ASCII character '\xe4' in file E:\coding\python\Untitled 6.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

問題二：UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 108: ordinal not in range(128)

問題三：UnicodeEncodeError: 'gb2312' codec can't encode character u'\u2014' in position 72366: illegal multibyte sequence

這些都是跟字元編碼有關的問題，很鬱悶，中文總是弄不出來，找了很多方案，這裡有些是我前幾天找到的一些方案，拿出來給大家分享一下哈

　　字串在Python內部的表示是unicode 編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。

decode的作用是將其他編碼的字串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字串str1轉換成unicode編碼。

encode的作用是將unicode編碼轉換成其他編碼的字串，如str2.encode('gb2312')，表示將unicode編碼的字串str2轉換成gb2312編碼。

在某些IDE中，字串的輸出總是出現亂碼，甚至錯誤，其實是由於IDE的結果輸出控制檯自身不能顯示字串的編碼，而不是程式本身的問題。

如在UliPad中執行如下程式碼：

s=u"中文"

print s

會提示：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。這是因為UliPad在英文WindowsXP 上的控制檯資訊輸出視窗是按照ascii編碼輸出的（英文系統的預設編碼是ascii），而上面程式碼中的字串是Unicode編碼的，所以輸出時產生了錯誤。

將最後一句改為：print s.encode('gb2312')

則能正確輸出“中文”兩個字。

若最後一句改為：print s.encode('utf8')

則輸出：\xe4\xb8\xad\xe6\x96\x87，這是控制檯資訊輸出視窗按照ascii編碼輸出utf8編碼的字串的結果。

下面程式碼可能比較通用一些，如下:

#!/usr/bin/env python   
#coding=utf-8   
s="中文" 
if isinstance(s, unicode):  
    #s=u"中文"   
    print s.encode('gb2312')  
else:  
    #s="中文"   
    print s.decode('utf-8').encode('gb2312') 
#!/usr/bin/env python
#coding=utf-8
s="中文"
if isinstance(s, unicode):
 #s=u"中文"
 print s.encode('gb2312')
else:
 #s="中文"
 print s.decode('utf-8').encode('gb2312')

看看下面一段程式碼：

#!/usr/bin/env python   
#coding=utf-8   
#python version:2.7.4  
#system:windows xp  
  
import httplib2 
def getPageContent(url): 
    '''''
    使用httplib2用程式設計的方式根據url獲取網頁內容
    將bytes形式的內容轉換成utf-8的字串
    '''
    #使用ie9的user-agent，如果不設定user-agent將會得到403禁止訪問  
    headers={'user-agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)', 
            'cache-control':'no-cache'} 
    if url: 
         response,content = httplib2.Http().request(url,headers=headers) 
           
         if response.status == 200 : 
            return content

import sys   
reload(sys)   
sys.setdefaultencoding('utf-8')   #修改預設編碼方式，預設為ascci  
print sys.getdefaultencoding() 
  
content = getPageContent("http://www.oschina.net/") 
print content.decode('utf-8').encode('gb2312') 
#!/usr/bin/env python
#coding=utf-8
#python version:2.7.4
#system:windows xp
import httplib2
def getPageContent(url):
    '''
    使用httplib2用程式設計的方式根據url獲取網頁內容
    將bytes形式的內容轉換成utf-8的字串
    '''
    #使用ie9的user-agent，如果不設定user-agent將會得到403禁止訪問
    headers={'user-agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)',
            'cache-control':'no-cache'}
    if url:
         response,content = httplib2.Http().request(url,headers=headers)
         
         if response.status == 200 :
            return content

import sys 
reload(sys) 
sys.setdefaultencoding('utf-8')   #修改預設編碼方式，預設為ascci
print sys.getdefaultencoding()
content = getPageContent("http://www.oschina.net/")
print content.decode('utf-8').encode('gb2312')

上面的程式碼的意思：向www.oschina.net網站請求他的主頁，（如果直接是utf-8編碼，不能輸出中文）想將編碼方式為utf-8轉向gd2312,出現問題三

當我把它將print content.decode('utf-8').encode('gb2312')改成　　print content.decode('utf-8').encode('gb2312', ‘ignore’)時，ＯＫ了，可以顯示中文了，但不敢確定是否為全部，貌似只有部分吧，有些不能用gb2312編碼

然而，當我把網站換成 www.soso.com時，不用轉為gb2312,用utf-8即可正常顯示中文

總結一下：

　　向檔案直接輸出ss會丟擲同樣的異常。在處理unicode中文字串的時候，必須首先對它呼叫encode函式，轉換成其它編碼輸出。這一點對各個環境都一樣。在Python中，“str”物件就是一個位元組陣列，至於裡面的內容是不是一個合法的字串，以及這個字串採用什麼編碼（gbk, utf-8, unicode）都不重要。這些內容需要使用者自己記錄和判斷。這些的限制也同樣適用於“unicode”物件。要記住“unicode”物件中的內容可絕對不一定就是合法的unicode字串，我們很快就會看到這種情況。在windows的控制檯上，支援gbk編碼的str物件和unicode編碼的unicode物件。

關於中文亂碼問題（總結）
2013-08-07
Python中文亂碼問題
2014-07-04
Python
Python BeautifulSoup中文亂碼問題
2020-12-12
Python
Python及requests亂碼問題的總結
2016-01-17
Python
python查詢mysql中文亂碼問題
2021-05-31
PythonMySql
徹底搞懂 python 中文亂碼問題
2018-04-17
Python
python 中文亂碼問題解決方案
2014-12-09
Python
EasyUI 中文亂碼問題
2020-12-30
UI
MSSQL中文亂碼問題
2014-12-19
SQL
Java 中文亂碼問題
2015-12-07
Java
中文亂碼的總結薦
2010-11-08
SpringMVC中文亂碼問題
2018-01-17
SpringMVC
Cookie值中文亂碼問題
2012-05-31
Cookie
解決中文亂碼問題
2024-05-14
eclipse 中文亂碼問題解決方案彙總
2015-12-06
Eclipse
python3-csv寫入中文亂碼問題
2020-10-24
Python
MySql中文亂碼問題解決
2020-11-13
MySql
Jmeter 解決中文亂碼問題
2020-10-10
JMeter
Java 解決中文亂碼問題
2018-01-23
Java
RDSSQLSERVER解決中文亂碼問題
2016-11-28
SQLServer
解決MySQL中文亂碼問題
2014-04-20
MySql
ubuntu 中文顯示亂碼問題
2015-04-18
Ubuntu
Java,MySQL中文亂碼問題求教
2004-12-23
JavaMySql
java處理中文亂碼問題
2009-12-18
Java
vscode中文亂碼問題
2024-09-29
VSCode
Java GBK 中文亂碼問題分析
2021-09-09
Java
解決plsql中中文亂碼問題
2020-12-12
SQL
Java Web開發中文亂碼問題
2018-07-10
JavaWeb
MySQL客戶端中文亂碼問題。
2011-08-08
MySql客戶端
BIP輸出PDF中文亂碼問題
2012-08-23
Ruby On Rails實踐—中文亂碼問題
2010-05-19
AI
Ubuntu 字元介面中文亂碼問題
2011-12-01
Ubuntu字元
Navicat for mysql 顯示中文亂碼問題
2012-09-05
MySql
springmvc 解決中文亂碼問題
2024-05-14
SpringMVC
js解決url中文亂碼問題
2024-06-05
JS
python json.dumps中文亂碼問題解決
2019-06-13
PythonJSON
如何解決python 圖表中文顯示亂碼問題
2021-02-25
Python
如何解決PuTTY中文亂碼的問題
2019-03-16

python中文亂碼問題大總結

相關文章