檢視網頁是否壓縮gzip+編碼方式

Pop_Rain發表於2017-06-12

一、檢視網頁是否壓縮gzip

req = urllib.request.Request(url)
html = urllib.request.urlopen(req)
print(html.info().get('Content-Encoding'))  #print(html.info())能檢視更多資訊

二、檢視網頁編碼方式

在學習Python爬取網頁的時候，我們經常會遇到編碼方式的困擾，為了解決這個編碼方式的問題，首先是要獲取網頁的編碼方式，下面就獲取網頁的編碼方式重點說一下三種方法。

一，使用chardet模組（python3自己實現，親測成功）

import chardet 
import urllib.request

data = urllib.request.urlopen('http://www.baidu.com').read()
chardit = chardet.detect(data)
print (chardit['encoding'])

在工作中進行以下實現：

import urllib.request
import chardet  #用於獲取網頁編碼方式

urls = open("f:/1.txt") #從1.txt取urls資料
for url in urls:    
    request = urllib.request.Request(url)  
    response = urllib.request.urlopen(request)
    data = response.read()
    chardit = chardet.detect(data) #chardit為獲取網頁編碼相關資訊的字典
    rule = chardit["encoding"]
    if rule:
        print(rule)
    else:
        print("error!沒有獲得網頁編碼格式資訊")

二，使用urllib模組的getparam方法

import urllib
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

三，利用BeautifulSoup模組方法

>from bs4 import BeautifulSoup
>import urllib2
>content=urllib2.urlopen(url)#這裡url是你需要獲取的網頁
>soup=BeautifulSoup(content)
>print soup.original_encoding #這裡的輸出就是網頁的編碼方式

這裡爬取網頁內容出現的亂碼問題，可以參考部落格文章。

這裡獲取網頁html內容，可以參考部落格文章。

轉載自：http://blog.csdn.net/winterto1990/article/details/47658887

高效的資料壓縮編碼方式 Protobuf
2018-05-31
檢視並ORACLE的編碼方式
2007-12-04
Oracle
tomcat網頁壓縮配置
2020-11-04
Tomcat網頁
HttpGzipModule 網頁壓縮傳輸
2012-07-01
HTTP網頁
如何檢測頁面是否進行了縮放
2017-02-22
影像壓縮編碼碼matlab實現——行程編碼
2020-12-24
Matlab行程
影像壓縮編碼碼matlab實現——DM編碼
2020-12-24
Matlab
影像壓縮編碼碼matlab實現——變換編碼
2020-12-24
Matlab
影像壓縮編碼碼matlab實現——算術編碼
2020-12-24
Matlab
Nginx網路壓縮 CSS壓縮圖片壓縮 JSON壓縮
2022-02-08
NginxCSSJSON
SQLServer的頁壓縮
2023-01-10
SQLServer
目前網頁最小字型以及字型壓縮
2020-12-01
網頁
網路攝像機—影象壓縮方式—JPEG、MJPEG
2017-05-12
CSP之壓縮編碼（動態規劃）
2018-09-15
動態規劃
gz檔案檢視，syslog系統壓縮的
2024-10-03
[20180814]慎用檢視錶壓縮率指令碼.txt
2018-08-14
指令碼
在EMR中使用snappy壓縮的時候快速檢視壓縮前文字的內容
2017-12-19
APP
怎麼檢視網站是否被谷歌收錄，檢視網站是否被谷歌收錄的快速檢測方法
2024-10-05
網站谷歌
android解壓縮GZIP格式的網頁資料
2013-11-26
Android網頁
檢視HTML網頁滑鼠位置
2024-05-20
HTML網頁
win10 如何壓縮視訊 win10怎麼壓縮視訊
2020-09-06
Win10
Android Bitmap的常用壓縮方式
2018-01-11
Android
Linux下各壓縮方式測試（壓縮率和使用時間）
2018-11-16
Linux
小視訊原始碼，java使用Thumbnails壓縮圖片
2021-11-09
原始碼JavaAI
怎麼檢視網站是否被谷歌收錄，檢視網站是否被谷歌收錄的詳細步驟
2024-10-02
網站谷歌
常用的壓縮解壓縮以及網路通訊命令
2011-07-31
影像壓縮編碼碼matlab實現——常用引數計算
2020-12-24
Matlab
貪心演算法——Huffman 壓縮編碼的實現
2018-12-17
演算法
【學習圖片】13.自動壓縮和編碼
2023-03-13
數字媒體技術揭祕（續）——壓縮編碼
2017-03-06
<轉>“您檢視的網頁正在試圖關閉視窗。是否關閉此視窗”的遮蔽方法(JavaScript)
2012-11-07
網頁JavaScript
SQL Server 2008 表和索引的行壓縮和頁壓縮
2011-02-14
SQLServer索引
JAVA壓縮和解壓縮
2016-10-19
Java
zip壓縮和解壓縮
2016-08-17
檢視一個歸檔或壓縮檔案的內容而無需解壓它
2018-09-05
檢視無線網路卡是否支援監聽模式
2020-04-10
模式
檢視修改mysql編碼方式讓它支援中文(gbk或者utf8)
2021-09-09
MySql
用ASP實現線上壓縮與解壓縮功能程式碼
2019-11-02

檢視網頁是否壓縮gzip+編碼方式

一、檢視網頁是否壓縮gzip

二、檢視網頁編碼方式

相關文章