requests.get()爬去中文網頁亂碼解決方法
requests.get()爬去中文網頁亂碼解決方法
當我們使用requests.get()爬取百度首頁時會發現,返回的html程式碼中的中文發生亂碼。
import requests
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
print(html.text)
發現下圖中中文位置出現亂碼。
對原始碼分析發現原始碼是以’utf-8’編碼的。
以下提供兩種思路:1.將get到的結果再用’utf-8’編碼,之後獲取text屬性。官網給出的解決方法。2.對get返回結果的text屬性以’latin-1’編碼,再用’utf-8’解碼。
1.
import requests
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
html.encoding = 'utf-8'
print(html.text)
2.
import requests
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url = 'http://www.baidu.com'
html = requests.get(url, headers = headers)
print(html.text.encode('latin-1').decode('utf-8'))
相關文章
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- centos7 vim中文亂碼解決方法CentOS
- toad 中文顯示亂碼解決方法
- 讀mysql中文亂碼問題解決方法MySql
- Windows控制檯(cmd)中文亂碼解決方法Windows
- CentOS中文亂碼問題的解決方法CentOS
- RHEL中文亂碼解決
- HttpClient 解決中文亂碼HTTPclient
- MySQL解決中文亂碼MySql
- matplotlib 圖示 中文亂碼, 與 wordcloud 詞雲圖 中文亂碼 解決方法Cloud
- Python使用request包請求網頁亂碼解決方法Python網頁
- sqlldr 匯入中文出現亂碼解決方法SQL
- ISAPI_Rewrite中文變亂碼的解決方法API
- DEBIAN 5.02 SSH 中文亂碼解決方法
- request/response解決中文亂碼
- eclipse中文亂碼解決Eclipse
- myeclipse解決中文亂碼Eclipse
- 解決Linux中文亂碼Linux
- ROS中解決中文亂碼ROS
- 解決中文亂碼問題
- 解決MySQL中文亂碼和插入中文不顯示的方法MySql
- javaweb中中文亂碼解決方法總結之response和request解決方法JavaWeb
- git操作時中文顯示亂碼的解決方法Git
- Mysql中文亂碼問題的最佳解決方法MySql
- IDEA控制檯輸出中文亂碼解決方法Idea
- Linux中文亂碼問題終極解決方法Linux
- Mac下navicat for mysql中文顯示亂碼解決方法MacMySql
- Linux下解決matplotlib中文亂碼的方法Linux
- 【知識積累】爬蟲之網頁亂碼解決方法(gb2312 -> utf-8)爬蟲網頁
- MySql中文亂碼問題解決MySql
- Jmeter 解決中文亂碼問題JMeter
- 解決 SecureCRT 和 SecureFX 中文亂碼Securecrt
- Java 解決中文亂碼問題Java
- RDSSQLSERVER解決中文亂碼問題SQLServer
- Windows下Clion中文亂碼解決Windows
- 徹底解決Oracle中文亂碼Oracle
- 解決MySQL中文亂碼問題MySql
- Node.js 中文亂碼解決Node.js