兩種方法獲取網頁編碼python版

pythontab發表於2013-01-14

原文網址 : https://www.pythontab.com/html/2013/pythonhexinbiancheng_0114/129.html

網頁Python

在web開發的時候我們經常會遇到網頁抓取和分析，各種語言都可以完成這個功能。我喜歡用python實現，因為python提供了很多成熟的模組，可以很方便的實現網頁抓取。

但是在抓取過程中會遇到編碼的問題，那今天我們來看一下如何判斷網頁的編碼：

網上很多網頁的編碼格式都不一樣，大體上是GBK,GB2312，UTF-8等。

我們在獲取網頁的的資料後，先要對網頁的編碼進行判斷，才能把抓取的內容的編碼統一轉換為我們能夠處理的編碼，避免亂碼問題的出現。

下面介紹兩種判斷網頁編碼的方法：

方法一：使用urllib模組的getparam方法

import urllib
 
fopen1 = urllib.urlopen('http://www.baidu.com').info()
 
fopen2 = urllib.urlopen('http://www.pythontab.com').info()
 
print fopen1.getparam('charset')# baidu
 
print fopen2.getparam('charset')# pythontab

執行結果為：

gbk

None

PS: 呵呵，其實，上面的獲取的編碼都是不正確的，我們可以自己開啟網頁檢視原始碼，發現baidu的是gb2312，而pythontab是utf-8。唉，這個方法確實有點坑爹啊。檢測不準確、檢測不到，它都佔了，所以很不靠譜，下面介紹一個靠譜的方法。

方法二：使用chardet模組

#如果你的python沒有安裝chardet模組，你需要首先安裝一下chardet判斷編碼的模組哦
import chardet 
import urllib
#先獲取網頁內容
data = urllib.urlopen('http://www.pythontab.com').read()
#用chardet進行內容分析
chardit = chardet.detect(data)
 
data1 = urllib.urlopen('http://www.baidu.com').read()
 
chardit1 = chardet.detect(data1)
 
print chardit['encoding'] # pythontab
 
print chardit1['encoding'] # baidu

執行結果為：

utf-8

gb2312

這兩個結果都是正確的哦，各位可以去親自驗證一下~~

總結：第二個方法很準確，在網頁編碼分析的時候用python模組分析內容是最準確的，而使用分析meta頭資訊的方法是不太準確的。

Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
python3中編碼如何獲取網頁?
2021-09-11
Python網頁
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
python兩種獲取剪貼簿內容的方法
2020-11-11
Python
Python獲取list中指定元素索引的兩種方法
2024-07-24
Python索引
python四種方式解析網頁獲取頁面中的連結
2020-12-31
Python網頁
QWebView獲取網頁原始碼
2018-11-01
WebView網頁原始碼
127 PHP獲取網頁標題的3種實現方法程式碼例項
2018-09-12
PHP網頁
398、Java框架52 -【Hibernate - 分頁、兩種獲取方式】 2020.10.27
2020-10-27
Java框架
SQL Server在分頁獲取資料的同時獲取到總記錄數的兩種方法
2019-01-01
SQLServer
python獲取頁面亂碼時的處理
2021-11-11
Python
手機版python爬取網頁書籍
2020-12-19
Python網頁
JavaScript 獲取網頁尾本程式碼內容
2020-02-20
JavaScript網頁
網頁地址編碼解碼（網頁地址明文密文轉換）url編碼解碼 Python3
2018-08-27
網頁Python
想獲取JS載入網頁的源網頁的原始碼，不想獲取JS載入後的資料
2024-04-10
JS網頁原始碼
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
Javascript獲取原型的四種方法
2019-01-21
JavaScript原型
獲取 Class 物件的 3 種方法
2024-03-23
物件
js/jq 獲取網頁寬高
2018-12-12
JS網頁
JS獲取元素寬高的兩種情況
2018-07-16
JS
Groovy獲取Bean兩種方式（奇淫技巧操作）
2021-12-13
Bean
前端獲取視訊編碼格式
2021-06-09
前端
兩步快速獲取小程式原始碼
2018-10-02
原始碼
python之建立類的兩種方法
2018-08-22
Python
關於python爬取網頁
2021-03-10
Python網頁
JS讀取本地TXT文字的兩種方法
2022-05-10
JS
網頁程式碼(主頁)（初始版）:
2024-04-06
網頁
MVC 檢視不使用模板頁的兩種方法
2018-04-19
MVC
python生成requirements.txt的兩種方法
2020-07-21
PythonUIREM
python中合併表格的兩種方法
2021-09-11
Python
手淘首頁改版，如何打造首頁流量，快速獲取猜你喜歡流量的四種方法
2020-10-09
android獲取控制元件的幾種方法
2018-11-26
Android控制元件
7種Linux中獲取CPU速度的方法
2021-05-21
Linux
PHP中獲取當前頁面的各種URL格式
2019-02-16
PHP
React 中獲取資料的 3 種方法：哪種最好？
2019-11-07
React
Ace editor 線上網頁版的vscode!程式碼編輯器
2022-02-15
網頁VSCode
網頁元素居中的n種方法
2020-06-15
網頁
Chrome 獲取網頁顏色（文字、圖片）
2022-04-06
Chrome網頁
python爬取網頁詳細教程
2021-09-11
Python網頁

兩種方法獲取網頁編碼python版

方法一：使用urllib模組的getparam方法

方法二：使用chardet模組

相關文章