檢視網頁是否壓縮gzip+編碼方式
一、檢視網頁是否壓縮gzip
req = urllib.request.Request(url)
html = urllib.request.urlopen(req)
print(html.info().get('Content-Encoding')) #print(html.info())能檢視更多資訊
二、檢視網頁編碼方式
在學習Python爬取網頁的時候,我們經常會遇到編碼方式的困擾,為了解決這個編碼方式的問題,首先是要獲取網頁的編碼方式,下面就獲取網頁的編碼方式重點說一下三種方法。
一, 使用chardet模組(python3自己實現,親測成功)
import chardet
import urllib.request
data = urllib.request.urlopen('http://www.baidu.com').read()
chardit = chardet.detect(data)
print (chardit['encoding'])
在工作中進行以下實現:
import urllib.request
import chardet #用於獲取網頁編碼方式
urls = open("f:/1.txt") #從1.txt取urls資料
for url in urls:
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
data = response.read()
chardit = chardet.detect(data) #chardit為獲取網頁編碼相關資訊的字典
rule = chardit["encoding"]
if rule:
print(rule)
else:
print("error!沒有獲得網頁編碼格式資訊")
二, 使用urllib模組的getparam方法
import urllib
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu
三, 利用BeautifulSoup模組方法
>from bs4 import BeautifulSoup
>import urllib2
>content=urllib2.urlopen(url)#這裡url是你需要獲取的網頁
>soup=BeautifulSoup(content)
>print soup.original_encoding #這裡的輸出就是網頁的編碼方式
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
這裡爬取網頁內容出現的亂碼問題,可以參考部落格文章。
這裡獲取網頁html內容,可以參考部落格文章。
轉載自:http://blog.csdn.net/winterto1990/article/details/47658887
相關文章
- 高效的資料壓縮編碼方式 Protobuf
- 檢視並ORACLE的編碼方式Oracle
- tomcat網頁壓縮配置Tomcat網頁
- HttpGzipModule 網頁壓縮傳輸HTTP網頁
- 如何檢測頁面是否進行了縮放
- 影像壓縮編碼碼matlab實現——行程編碼Matlab行程
- 影像壓縮編碼碼matlab實現——DM編碼Matlab
- 影像壓縮編碼碼matlab實現——變換編碼Matlab
- 影像壓縮編碼碼matlab實現——算術編碼Matlab
- Nginx網路壓縮 CSS壓縮 圖片壓縮 JSON壓縮NginxCSSJSON
- SQLServer的頁壓縮SQLServer
- 目前網頁最小字型以及字型壓縮網頁
- 網路攝像機—影象壓縮方式—JPEG、MJPEG
- CSP之壓縮編碼(動態規劃)動態規劃
- gz檔案檢視,syslog系統壓縮的
- [20180814]慎用檢視錶壓縮率指令碼.txt指令碼
- 在EMR中使用snappy壓縮的時候快速檢視壓縮前文字的內容APP
- 怎麼檢視網站是否被谷歌收錄,檢視網站是否被谷歌收錄的快速檢測方法網站谷歌
- android解壓縮GZIP格式的網頁資料Android網頁
- 檢視HTML網頁滑鼠位置HTML網頁
- win10 如何壓縮視訊 win10怎麼壓縮視訊Win10
- Android Bitmap的常用壓縮方式Android
- Linux下各壓縮方式測試(壓縮率和使用時間)Linux
- 小視訊原始碼,java使用Thumbnails壓縮圖片原始碼JavaAI
- 怎麼檢視網站是否被谷歌收錄,檢視網站是否被谷歌收錄的詳細步驟網站谷歌
- 常用的壓縮解壓縮以及網路通訊命令
- 影像壓縮編碼碼matlab實現——常用引數計算Matlab
- 貪心演算法——Huffman 壓縮編碼的實現演算法
- 【學習圖片】13.自動壓縮和編碼
- 數字媒體技術揭祕(續)——壓縮編碼
- <轉>“您檢視的網頁正在試圖關閉視窗。是否關閉此視窗”的遮蔽方法(JavaScript)網頁JavaScript
- SQL Server 2008 表和索引的行壓縮和頁壓縮SQLServer索引
- JAVA壓縮和解壓縮Java
- zip壓縮和解壓縮
- 檢視一個歸檔或壓縮檔案的內容而無需解壓它
- 檢視無線網路卡是否支援監聽模式模式
- 檢視修改mysql編碼方式讓它支援中文(gbk或者utf8)MySql
- 如何檢視網頁元素使用的js網頁JS