不要相信requests編碼後返回的text

veelion發表於2019-01-05

原文網址 : https://www.yuanrenxue.com/crawler/encoding-error-of-requests-text.html

Python的requests庫是一個非常好用的庫，這應該已經是大多寫過爬蟲的人的共識了。它的簡潔易用給我們帶來很大方便。然而，它也並不是非常完美。今天我們就說說它在處理中文編碼方面的不足。

requests encode error

requests的使用非常簡單，如下：
reequest的使用

一句函式呼叫，就可以獲得請求結果的物件response，透過response.content 可以得到原始的二進位制資料，透過response.text可以得到解碼後的文字資料，解碼是根據response.encoding進行的。然而，requests對這個encoding（編碼）的獲取是有問題的。

它獲取編碼的過程分為兩步，不幸的是每一步都有問題：

第一步：從http返回的headers裡面找編碼。

這一步的程式碼在原始檔utils.py裡面是get_encoding_from_headers(headers)函式：

headers裡面找編碼

最後兩行程式碼，它認為headers裡面的‘Content-Type’包含‘text’就是‘ISO-8859-1’編碼。這種想法是不嚴謹的。

我們用chrome瀏覽器開啟最開始程式碼中的那個網址，這是一箇中文網頁：

http://epaper.sxrb.com/

在用Chrome的F12檢視http響應的頭，如下：

這個網站給出的Content-Type不是下面的正規格式：

Content-Type: text/html; charset=UTF-8

然後，requests的get_encoding_from_headers函式就得到了ISO-8859-1的編碼，再用這個編碼去解碼中文，當然就會出現亂碼。

第二步：如果不能從響應headers得到編碼，就用chardet從二進位制的content猜測

嚴格講，這步出現的編碼問題不是requests的，而是chardet的，就判requests一個失察之責吧。

在requests的原始碼models.py中定義了requests.get()返回的類Response。我們再看看其中text()的定義：

text()定義

響應頭找不到編碼時，self.encoding就是None。它就會透過self.apparent_encoding獲得編碼，那就再看看這個apparent_encoding是怎麼來的：

apparent_encoding的定義

很簡單，就是透過chardet檢測的。問題就出現在這個chardet上面。那我們就打破砂鍋問到底，去看看chardet的程式碼。

chardet檔案

上圖是chardet的全部原始碼。其中處理國標中文編碼的gb2312開頭的兩個檔案。我們用grep再看看全部程式碼中含有gb的部分：

grep -i gb *py

含有GB的程式碼

以上說明，chardet對國標中文編碼返回的就是（只是）GB2312。那麼問題就來了，國標不只是GB2312，還有GBK，GB18030編碼。

（1）GB 2312 標準共收錄 6763 個漢字

（2）GBK 即漢字內碼擴充套件規範，共收入 21886 個漢字和圖形符號，相容GB2312

（3）GB 18030 與 GB 2312-1980 和 GBK 相容，共收錄漢字70244個

由此可知，三種國標中文編碼的漢字個數是如下關係：

GB2312 < GBK < GB18030

如果不屬於GB2312的漢字用GB2312去編解碼會出現上面問題呢？我們來做個實驗：

GB2312與GBK

例子中的“鎔”字不在GB2312中，用這個編碼時就會報錯，用GBK編碼後的二進位制資料再用GB2312解碼時同樣會報錯，都是因為“鎔”不是GB2312裡面的漢字。

這時候，我們像requests那樣把errors設定為replace再用GB2312解碼得到的文字就會有亂碼出現，“鎔”字變成亂碼了。

最後我們用chardet檢驗二進位制資料的編碼，得到的是GB2312，但應該是GBK或GB18030編碼。當然，chardet的這個bug已經有人在github提出issues，最早是2014年的#33，後來有#99，#168，但是不懂中文的老外一直沒有merge到master。

問題弄明白了，那麼建議是什麼呢？在爬蟲中，尤其是抓取中文網頁（非英文網頁）時用cchardet檢驗response.content，而不是直接用response.text。

cchardet是uchardet的Python繫結，後者是用C++實現的字元編碼檢測庫，來自Mozilla組織，質量過硬，速度更快，值得信賴。

uchardet介紹

猿人學banner宣傳圖

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

相關文章

千萬不要相信程式設計師在加班時間寫的程式碼！
2019-05-06
程式設計師
解碼返回Unicode編碼的文字
2024-04-22
Unicode
requests請求返回內容中文亂碼問題
2019-05-13
requests返回值cookies轉字典
2020-11-04
Cookie
解決 requests 庫 URL 編碼問題
2023-11-20
Sublime Text 3 如何支援中文編碼
2018-12-08
程式碼編輯器：sublime text for Mac
2024-01-15
Mac
程式碼編輯器Sublime_Text3的使用
2019-02-15
黃仁勳：不要學習編碼
2024-02-25
Sublime Text 4 for Mac(程式碼編輯器)
2022-10-28
Mac
Sublime Text程式碼編輯器Mac/Windows
2022-09-16
MacWindows
Sublime Text——高效的跨平臺程式碼編輯器
2024-01-24
sublime text Mac版功能強大的程式碼編輯器
2023-03-10
Mac
創意設計師，請不要相信考證無用論!
2023-04-10
程式碼編輯器：sublime text for Mac 註冊版
2023-12-28
Mac
前端程式碼編輯：Sublime Text 4 Dev 中文mac版
2023-05-04
前端devMac
Sublime Text 4 Dev for Mac，Mac前端程式碼編輯工具
2023-05-04
devMac前端
Sublime Text:極速、靈活的程式碼編輯器Mac/Win版本
2023-11-10
Mac
(衝突)關於python中的requests模組中，呼叫text方法出現中文亂碼的解決辦法
2019-01-02
Python
編碼規範：不要用引數控制程式碼邏輯
2022-09-20
修改 requests 庫原始碼的方法
2023-11-21
原始碼
基於gin的golang web開發：永遠不要相信使用者的輸入
2020-11-26
GolangWeb
幽默：不要相信 10 倍程式設計師/設計師/領導者！
2021-06-07
程式設計師
強大的程式碼編輯器Sublime Text for Mac註冊啟用版
2023-11-27
Mac
Sublime Text:功能強大的程式碼編輯器Mac/win中文版
2023-11-20
Mac
Sublime Text 4 Dev 註冊碼(程式碼編輯器) v4.0(4164)
2023-11-09
dev
FPGA開發點滴(1)：程式碼編輯器sublime text 3
2018-09-29
FPGA
前端程式碼編輯神器:Sublime Text 4 Dev中文註冊版
2023-05-11
前端dev
sublime text 4 for Mac(前端程式碼編輯神器) v4.0(4123)
2021-12-09
Mac前端
《英靈神殿》熱銷背後最大的祕訣：相信玩家
2021-03-26
記住，永遠不要在 MySQL 中使用 “utf8” 編碼
2018-07-02
MySql
Sublime Text for Mac/Windows：一款強大的跨平臺程式碼編輯器
2023-12-29
MacWindows
JIT 編譯後的程式碼儲存位置
2024-12-10
編譯
curl轉python requests程式碼
2018-08-16
Python
程式碼編輯器：sublime text for Mac 4.0(4164)註冊漢化版
2023-11-14
Mac
sublime text 4 for Mac中文漢化教程高階程式碼編輯器
2022-02-12
Mac
Sublime Text3 自動編譯less 的配置
2018-06-19
編譯
直播原始碼開發，Android 遮蔽返回鍵（後退鍵）
2023-03-14
原始碼Android