網站爬取時出現亂碼該怎麼辦?本人以py的request來開始講解.包括了分析亂碼的由來與奧祕

wangchunbo發表於2020-09-09

通過 request 的get 請求某目標頁面,發現中文全部亂碼

網頁顯示:

網站爬取時出現亂碼該怎麼辦

命令列顯示:
網站爬取時出現亂碼該怎麼辦

來檢視一下網頁返回的字符集型別

網站爬取時出現亂碼該怎麼辦
老硬幣了,這裡顯示utf8

通過request 返回的屬性來看

print(resp.encoding) #檢視網頁返回的字符集型別 

print(resp.apparent_encoding) #自動判斷字符集型別

網站爬取時出現亂碼該怎麼辦

發現問題!

接下來的我們就進行編碼解碼來搞他

def get(url, transform):
    resp = requests.get(url, timeout=10)
    print(resp.url, resp.status_code)
    print(resp.encoding) #檢視網頁返回的字符集型別 這裡返回ISO-8859 
    print(resp.apparent_encoding) #自動判斷字符集型別 發現這裡返回 GB2312! 我們進行轉換gbk 

    html = resp.text.encode('iso-8859-1').decode('gbk')
    print('html: ', html)

搞定,可以繼續爬蟲了.
網站爬取時出現亂碼該怎麼辦

關於網路爬蟲的亂碼處理。注意,這裡不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因為他們的解決方式 是一致的,故在此統一說明。

一、亂碼問題的出現

就以爬取51job網站舉例,講講為何會出現“亂碼”問題,如何解決它以及其背後的機制。

程式碼示例:

import requests

url = “http://search.51job.com"

res = requests.get(url)

print(res.text)

顯示結果:

列印res.text時,發現了什麼?中文亂碼!!!不過發現,網頁的字符集型別採用的gbk編碼格式。

我們知道Requests 會基於 HTTP 頭部對響應的編碼作出有根據的推測。當你訪問 r.text 之時,Requests 會使用其推測的文字編碼。你可以找出 Requests 使用了什麼編碼,並且能夠使用r.encoding 屬性來改變它。

接下來,我們一起通過resquests的一些用法,來看看Requests 會基於 HTTP 頭部對響應的編碼方式。

print(res.encoding) #檢視網頁返回的字符集型別

print(res.apparent_encoding) #自動判斷字符集型別

輸出結果為:

可以發現Requests 推測的文字編碼(也就是網頁返回即爬取下來後的編碼轉換)與源網頁編碼不一致,由此可知其正是導致亂碼原因。

當源網頁編碼和爬取下來後的編碼轉換不一致時,如源網頁為gbk編碼的位元組流,而我們抓取下後程式直接使用utf-8進行編碼並輸出到儲存檔案中,這必然會引起亂碼,即當源網頁編碼和抓取下來後程式直接使用處理編碼一致時,則不會出現亂碼,此時再進行統一的字元編碼也就不會出現亂碼了。最終爬取的所有網頁無論何種編碼格式,都轉化為utf-8格式進行儲存。

注意:區分源網編碼A-gbk、程式直接使用的編碼B-ISO-8859-1、統一轉換字元的編碼C-utf-8。

在此,我們擴充講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區別聯絡,大概如下:

最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現了很多標準編碼。iso8859-1屬於單位元組編碼,最多能表示的字元範圍是0-255,應用於英文系列。很明顯,iso8859-1編碼表示的字元範圍很窄,無法表示中文字元。

1981年中國人民通過對 ASCII 編碼的中文擴充改造,產生了 GB2312 編碼,可以表示6000多個常用漢字。但漢字實在是太多了,包括繁體和各種字元,於是產生了 GBK 編碼,它包括了 GB2312 中的編碼,同時擴充了很多。中國又是個多民族國家,各個民族幾乎都有自己獨立的語言系統,為了表示那些字元,繼續把 GBK 編碼擴充為 GB18030 編碼。每個國家都像中國一樣,把自己的語言編碼,於是出現了各種各樣的編碼,如果你不安裝相應的編碼,就無法解釋相應編碼想表達的內容。終於,有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個文字和標誌。所以只要電腦上有 UNICODE 這種編碼系統,無論是全球哪種文字,只需要儲存檔案的時候,儲存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網路傳輸中,出現了兩個標準 UTF-8 和 UTF-16,分別每次傳輸 8個位和 16個位。於是就會有人產生疑問,UTF-8 既然能儲存那麼多文字、符號,為什麼國內還有這麼多使用 GBK 等編碼的人?因為 UTF-8 等編碼體積比較大,佔電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。

也可以這樣來理解:字串是由字元構成,字元在計算機硬體中通過二進位制形式儲存,這種二進位制形式就是編碼。如果直接使用 “字串↔️字元↔️二進位制表示(編碼)” ,會增加不同型別編碼之間轉換的複雜性。所以引入了一個抽象層,“字串↔️字元↔️與儲存無關的表示↔️二進位制表示(編碼)” ,這樣,可以用一種與儲存無關的形式表示字元,不同的編碼之間轉換時可以先轉換到這個抽象層,然後再轉換為其他編碼形式。在這裡,unicode 就是 “與儲存無關的表示”,utf—8 就是 “二進位制表示”。

根據原因來找解決方法,就非常簡單了。

方法一:直接指定res.encoding

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = "gbk"
html = res.text
print(html)

方法二:通過res.apparent_encoding屬性指定

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = res.apparent_encoding
html = res.text
print(html)

方法三:通過編碼、解碼的方式

import requests
url = "http://search.51job.com"
res = requests.get(url)
html = res.text.encode('iso-8859-1').decode('gbk')
print(html)

輸出結果:

網站爬取時出現亂碼該怎麼辦

基本思路三步走:確定源網頁的編碼A—gbk、程式通過編碼B—ISO-8859-1對源網頁資料還原、統一轉換字元的編碼C-utf-8。至於為啥為出現統一轉碼這一步呢? 網路爬蟲系統資料來源很多,不可能使用資料時,再轉化為其原始的資料,假使這樣做是很廢事的。所以一般的爬蟲系統都要對抓取下來的結果進行統一編碼,從而在使用時做到一致對外,方便使用。

比如如果我們想講網頁資料儲存下來,則會將起轉為utf-8,程式碼如下:

with open("a.txt",'w',encoding='utf-8') as f:
f.write(html)
本作品採用《CC 協議》,轉載必須註明作者和本文連結
感謝關注 上海PHP自學中心-免費程式設計視訊教學|

相關文章