requests.get()爬去中文網頁亂碼解決方法

Fork Woo發表於2019-02-01

原文網址 : https://blog.csdn.net/weixin_44508756/article/details/86746458

requests.get()爬去中文網頁亂碼解決方法

當我們使用requests.get()爬取百度首頁時會發現，返回的html程式碼中的中文發生亂碼。

import requests

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
print(html.text)

發現下圖中中文位置出現亂碼。
在這裡插入圖片描述
對原始碼分析發現原始碼是以’utf-8’編碼的。
以下提供兩種思路：1.將get到的結果再用’utf-8’編碼，之後獲取text屬性。官網給出的解決方法。2.對get返回結果的text屬性以’latin-1’編碼，再用’utf-8’解碼。
1.

import requests

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
html.encoding = 'utf-8'
print(html.text)

在這裡插入圖片描述
2.

import requests

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
print(html.text.encode('latin-1').decode('utf-8'))

在這裡插入圖片描述

python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
matplotlib 圖示中文亂碼，與 wordcloud 詞雲圖中文亂碼解決方法
2024-06-25
Cloud
Python使用request包請求網頁亂碼解決方法
2019-08-09
Python網頁
centos7 vim中文亂碼解決方法
2021-09-11
CentOS
MySQL解決中文亂碼
2024-11-20
MySql
記錄 Ubuntu18.04 中文亂碼，解決方法
2018-12-18
Ubuntu
IDEA控制檯輸出中文亂碼解決方法
2020-10-13
Idea
解決MySQL中文亂碼和插入中文不顯示的方法
2020-10-11
MySql
解決中文亂碼問題
2024-05-14
ROS中解決中文亂碼
2024-04-21
ROS
request/response解決中文亂碼
2021-11-07
javaweb中中文亂碼解決方法總結之response和request解決方法
2018-03-16
JavaWeb
git操作時中文顯示亂碼的解決方法
2019-02-12
Git
Mysql中文亂碼問題的最佳解決方法
2021-09-09
MySql
C# 解決httplistener querystring 中文亂碼、返回json中文格式亂碼
2021-04-27
C#HTTPJSON
Spring MVC 中文編碼亂碼解決
2018-11-07
SpringMVC
解決Tomcat視窗中文亂碼
2024-03-05
Tomcat
springmvc 解決中文亂碼問題
2024-05-14
SpringMVC
MySql中文亂碼問題解決
2020-11-13
MySql
解決 SecureCRT 和 SecureFX 中文亂碼
2020-09-28
Securecrt
Jmeter 解決中文亂碼問題
2020-10-10
JMeter
Dbvisualizer9.0.6 解決中文亂碼
2020-04-04
vscode中文亂碼怎麼解決 vscode輸出亂碼怎麼解決
2022-05-07
VSCode
cat中文正常vim中文亂碼怎麼解決？
2021-09-11
js解決url中文亂碼問題
2024-06-05
JS
解決plsql中中文亂碼問題
2020-12-12
SQL
IIS設定404頁面返回200碼和404頁面亂碼解決方法
2021-03-30
c#匯出檔案，檔名中文亂碼解決方法
2018-12-28
C#
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
kilu.de德國免費空間中文亂碼解決方法
2020-04-04
phantomjs截圖中文亂碼問題解決
2018-11-09
JS
css中文字型亂碼解決方案
2018-05-02
CSS
ubuntu中文顯示亂碼解決辦法
2024-11-16
Ubuntu
Linux終端中文菱形亂碼解決方案
2024-08-17
Linux
navicat for mysql顯示中文亂碼解決方案
2021-09-11
MySql
windows10系統下應用程式中文亂碼的解決方法
2018-08-19
Windows
springmvc向前端傳送json資料中文亂碼問題解決方法
2020-10-25
SpringMVC前端JSON
MySql中表單輸入資料出現中文亂碼的解決方法
2021-09-09
MySql

requests.get()爬去中文網頁亂碼解決方法

requests.get()爬去中文網頁亂碼解決方法

相關文章