python處理抓取中文編碼和判斷編碼

pythontab發表於2014-02-27

原文網址 : https://www.pythontab.com/html/2014/pythonjichu_0227/706.html

在開發自用爬蟲過程中，有的網頁是utf-8，有的是gb2312,有的是gbk，如果不加處理，採集到的都是亂碼，解決的方法是將html處理成統一的utf-8編碼

版本python2.7

#coding:utf-8
import chardet
#抓取網頁html
line = "http://www.pythontab.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
encoding_dict = chardet.detect(html_1)
print encoding
web_encoding = encoding_dict['encoding']
#處理，整個html就不會是亂碼。
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

Python 編碼轉換與中文處理
2021-09-09
Python
Python 中文編碼
2018-10-11
Python
Qt處理中文編碼出現錯誤
2024-07-17
QT
ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
Python編解碼問題與文字檔案處理
2021-06-19
Python
字元編碼與檔案處理
2020-11-25
字元
Python多程式抓取全國郵政編碼和長途區號
2018-03-14
Python
Js 和Url預設位址列編碼等處理
2019-05-11
JS
【廖雪峰python入門筆記】Unicode編碼_UnicodeDecodeError處理
2018-07-05
Python筆記UnicodeError
彙編——判斷大小
2020-09-25
C++中的字串編碼處理
2023-05-15
C++字串編碼
Java 處理 \x 開頭的編碼
2018-03-22
Java
python編碼
2018-05-12
Python
利用js判斷檔案是否為utf-8編碼
2021-06-02
JS
python教程3.3：字元和編碼
2024-05-04
Python字元
java安全編碼指南之:異常處理
2020-09-29
Java
Linux 和 Windows 下編碼問題處理 codestyle 解決方法
2020-04-17
LinuxWindows
體面編碼之異常日誌和測試處理
2018-12-31
python 判斷是否為中文
2018-12-11
Python
IDEA如何設定編碼格式，字元編碼，全域性編碼和專案編碼格式
2024-11-18
Idea字元
iOS 彙編基礎（三）還原高階程式碼之迴圈和判斷
2018-05-02
iOS
python中小資料池和編碼
2024-05-09
Python
python基礎之字串和編碼
2019-10-11
Python字串
Unicode編碼和中文互轉（JAVA實現）
2019-01-21
UnicodeJava
JavaScript 如何正確處理 Unicode 編碼問題！
2019-01-08
JavaScriptUnicode
JavaScript如何正確處理Unicode編碼問題！
2019-01-07
JavaScriptUnicode
java安全編碼指南之:字串和編碼
2020-09-16
Java字串
Spring MVC 中文編碼亂碼解決
2018-11-07
SpringMVC
Java版流媒體編解碼和影像處理(JavaCPP+FFmpeg)
2021-10-28
Java
maven編譯遇到"編碼GBK的不可對映字元"警告的處理
2022-06-27
Maven編譯字元
python中的編碼&解碼
2024-08-31
Python
Ubuntu 下設定中文編碼
2018-08-26
Ubuntu
json_encode() 不編碼中文
2018-03-23
JSON
Python基礎：編碼
2019-03-19
Python
1.3.0 Python 字元編碼
2019-01-19
Python字元
Python安全編碼指南
2020-08-19
Python
python編碼規範
2021-09-09
Python
前端業務程式碼配置化處理條件判斷邏輯
2020-06-24
前端
python 安全編碼&程式碼審計
2020-08-19
Python

python處理抓取中文編碼和判斷編碼

相關文章