python爬蟲爬取網頁中文亂碼問題的解決

兜兜转转入行的开发者發表於2024-11-17

一: 遇到的問題
1.程式碼

點選檢視程式碼

import requests
if name == 'main':
#指定URL
url = 'https://xxxxxx'
#傳送請求1.
page_text = requests.get(url, headers=headers).text
#列印
print(page_text)

2.返回的網頁內容

點選檢視程式碼 #省略的程式碼 第ä¸å·宴æ¡å­è±ªæ°ä¸ç»ä¹æ©é»å·¾è±éé¦ç«å 第äºåÂ·å¼ ç¿¼å¾·æé­ç£é® ä½å½è è°è¯å®¦ç« 第ä¸å·议温æè£åå±ä¸å é¦éç æè说åå¸ç¬¬åå·åºæ±å¸éçè·µä½ è°è£è´¼å­å¾·ç®å第äºå·åç«è¯è¯¸éåºæ¹å¬ ´å³åµä¸è±æåå¸ #省略的程式碼

3.問題 標紅部分應該是中文

二: 問題的解決
1.獲取網頁的方式requests.get().text改為reuqests.get().content

點選檢視程式碼 import requests if __name__ == '__main__': #指定URL url = 'https://xxxxxx' #傳送請求 page_text = requests.get(url, headers=headers).content #列印 print(page_text)

三:涉及到的知識

  1. requests.get().text 獲取的是文字形式的響應內容
  2. requests.get().content 獲取的是二進位制形式的響應內容

相關文章