【知識積累】爬蟲之網頁亂碼解決方法(gb2312 -> utf-8)

leesf發表於2016-03-03

原文網址 : https://www.cnblogs.com/leesf456/p/5239508.html

前言

　　今天在測試爬蟲專案時，發現了一個很嚴肅的問題，當爬取的網頁編碼格式為gb2312時，按照一般的辦法轉化為utf-8編碼時總是亂碼，PS:爬取的所有網頁無論何種編碼格式，都轉化為utf-8格式進行儲存。

一、問題出現

　　使用這篇文章裡面的方法可以直接爬取頁面資訊並儲存至本地使用Httpclient實現網頁的爬取並儲存至本地，當爬取這個網頁時http://stock.10jqka.com.cn/zhuanti/hlw_list/，發現使用之前（未知編碼 -> utf-8編碼）的轉化方式總是亂碼。於是乎查閱了不少資料，發現都不是太適用。最後自己摸索出了一個解決辦法，也特此記錄。

二、解決方案

　　1. 將gb2312格式轉化為gbk格式

　　2. 將gbk格式轉化為utf-8格式

　　這裡的轉化需要使用gbk作為一箇中間格式，作為轉化橋樑。

三、具體思路

　　1. 當開啟http://stock.10jqka.com.cn/zhuanti/hlw_list/這個連結，我們檢視原始碼會發現編碼格式為gb2312，如下圖所示

　　2. 由於本專案之前就已經使用了轉化方案，但是此轉化方案對網頁為gb2312格式無效，本專案之前的轉化方案的核心原始碼為：　

public void getContent(String url) {
        this.get = new HttpGet(url);
        HttpResponse response = client.execute(this.get);
        HttpEntity entity = response.getEntity();
        byte[] bytes = EntityUtils.toByteArray(entity);
        String content = new String(bytes);
        // 預設為utf-8編碼
        String charset = "utf-8";
        // 匹配<head></head>之間，出現在<meta>標籤中的字元編碼
        Pattern pattern = Pattern.compile("<head>([\\s\\S]*?)<meta([\\s\\S]*?)charset\\s*=(\")?(.*?)\"");
        Matcher matcher = pattern.matcher(content.toLowerCase());
        if (matcher.find()) {    
            charset = matcher.group(4);
        } 
        // 將目標字元編碼轉化為utf-8編碼
        String temp = new String(bytes, charset);
        byte[] contentData = temp.getBytes("utf-8");
        return contentData;
    }

View Code

　　這種方案對gb2312轉化後還是亂碼，之後的解決方案核心原始碼為：　　

public void getContent(String url) {
        this.get = new HttpGet(url);
        HttpResponse response = client.execute(this.get);
        HttpEntity entity = response.getEntity();
        byte[] bytes = EntityUtils.toByteArray(entity);
        String content = new String(bytes);
        // 預設為utf-8編碼
        String charset = "utf-8";
        // 匹配<head></head>之間，出現在<meta>標籤中的字元編碼
        Pattern pattern = Pattern.compile("<head>([\\s\\S]*?)<meta([\\s\\S]*?)charset\\s*=(\")?(.*?)\"");
        Matcher matcher = pattern.matcher(content.toLowerCase());
        if (matcher.find()) {    
            charset = matcher.group(4);
            if (charset.equals("gb2312")) {
                byte[] gbkBytes = new String(bytes, "gbk").getBytes();
                return new String(gbkBytes, "utf-8").getBytes();
            }
        } 
        // 將目標字元編碼轉化為utf-8編碼
        String temp = new String(bytes, charset);
        byte[] contentData = temp.getBytes("utf-8");
        return contentData;
    }

View Code

　　通過這種方式我們就可以解決gb2312編碼轉化為utf-8編碼時出現的亂碼問題。

四、總結

　　多思考，多動腦，這裡只是給出了一個工程解決方案，並沒有深入到其中的原理，由此問題可以引申出很多有意思的問題，如，utf-8、gbk、gb2312的編碼方式怎樣的？為什麼這樣轉化就可以解決問題？這些問題值得我們去深入研究。由於本篇文章主要是講工程解決方案，感興趣的讀者可以去深入瞭解。謝謝各位園友觀看~

　　附送一篇關於爬蟲亂碼問題解決的很好的文章，網路爬蟲的亂碼處理，講得很不錯，有做爬蟲的園友遇到這一部分的問題時可以好好參考參考。

python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
requests.get()爬去中文網頁亂碼解決方法
2019-02-01
網頁
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
日常知識積累
2019-02-16
MySQL知識-積累篇
2020-10-04
MySql
常用前端知識積累
2020-12-17
前端
Python使用request包請求網頁亂碼解決方法
2019-08-09
Python網頁
java web dev知識積累
2019-01-21
JavaWebdev
js基礎知識積累
2019-11-05
JS
ubuntu點選知識積累
2024-09-19
Ubuntu
docker 容器指定utf-8編碼，解決中文亂碼
2024-10-14
Docker
手把手教你寫網路爬蟲（8）：徹底解決亂碼問題
2018-05-14
爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
機器學習知識積累
2018-07-22
機器學習
爬蟲基礎知識
2023-03-15
爬蟲
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
機器學習數學知識積累之概率論
2018-06-25
機器學習
python 爬蟲 response得到亂碼
2018-08-13
Python爬蟲
Python爬蟲亂碼問題
2018-05-11
Python爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
逆向爬蟲知識學習
2022-03-21
爬蟲
javaweb中中文亂碼解決方法總結之response和request解決方法
2018-03-16
JavaWeb
使用代理爬蟲出302錯誤程式碼解決方法
2021-12-23
爬蟲
解決目標網站封爬蟲的3步方法
2022-05-13
網站爬蟲
神經網路理論與工程實戰-知識積累
2019-02-23
神經網路
IIS設定404頁面返回200碼和404頁面亂碼解決方法
2021-03-30
帶你瞭解 Unicode和UTF-8編碼知識
2020-11-16
Unicode
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
爬蟲必學知識之正規表示式上篇
2018-03-18
爬蟲
JAVA學習筆記及知識積累
2018-09-28
Java筆記
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
機器學習數學知識積累之數理統計
2018-07-06
機器學習
學 Java 網路爬蟲，需要哪些基礎知識？
2021-09-09
Java爬蟲
使用爬蟲代理採集網站失敗的解決方法
2021-07-09
爬蟲網站
反網路爬蟲以及解決方案
2019-03-07
爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲IP受限的三個解決方法
2022-05-24
爬蟲

【知識積累】爬蟲之網頁亂碼解決方法(gb2312 -> utf-8)

相關文章