網路爬蟲-去除網頁原始碼中的標籤

醉後知酒濃先生發表於2017-05-25

原文網址 : https://blog.csdn.net/zx1749623383/article/details/72727793

像百度百科、維基百科獲取到的網頁原始碼經常會含有HTML標籤，要想獲取到跟頁面上我們看到的一樣的內容，就需要對網頁原始碼進行處理。
下面是處理網頁原始碼中的HTML標籤的工具類：

public class StringUtil {
    public static String stripHTML(String html) {
        String noHTMLString = "";
        html = html.replaceAll("&amp;", "&");
        Matcher m = Pattern
                .compile("&#(\\d+);", Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL | Pattern.CANON_EQ)
                .matcher(html);
        boolean b = false;
        int i = 0;
        while (m.find()) {
            if (i > 500) {
                System.out.println(i);
            }
            i++;
            html = html.replace("&#" + m.group(1) + ";", (char) Integer.parseInt(m.group(1)) + "");
            b = true;
        }
        if (!b) {
            m = Pattern
                    .compile("&#x([\\da-f]+);",
                            Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL | Pattern.CANON_EQ)
                    .matcher(html);
            int j = 0;
            while (m.find()) {
                if (j > 500) {
                    System.out.println(j);
                }
                j++;
                html = html.replaceAll("&#[x|X]" + m.group(1) + ";", (char) Integer.parseInt(m.group(1), 16) + "");
            }
        }
        noHTMLString = html.replaceAll("<\\s*(?:br|Br|BR|bR|div|DIV|Div|p|P|td|TD|Td)\\s*(?:[^>])*\\s*>", "\n")
                .replaceAll("　", " ").replaceAll("", " ").replaceAll("&nbsp;", " ").replaceAll("\\<.*?\\>", "")
                .replaceAll("&(?:g|l)t", "");
        return noHTMLString.trim();
    }
}

處理後就可以得到跟我們網頁上看到的一樣的內容了，有時候有些特殊的字元可能沒有被處理掉，可以通過.replaceAll(）替換掉即可。

《網頁爬蟲》
2018-11-26
網頁爬蟲
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
網路爬蟲
2018-12-07
爬蟲
a標籤去除原始樣式
2020-12-24
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
網路爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python程式碼）
2019-04-24
爬蟲網頁Python
網路爬蟲的原理
2018-12-02
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
網路爬蟲的反扒策略
2021-09-11
爬蟲
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
網頁爬蟲--未完成
2020-10-04
網頁爬蟲
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
《Python3網路爬蟲開發實戰》PDF+原始碼+《精通Python爬蟲框架Scrapy》中英文PDF原始碼...
2018-12-23
Python爬蟲原始碼框架
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Html網頁中meta標籤及用法詳解
2018-10-31
HTML網頁
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
匿名IP在網路爬蟲中的應用探索
2023-05-16
爬蟲
網路爬蟲在商業分析中的應用
2020-01-03
爬蟲
java去除xml檔案中的標籤
2020-11-24
JavaXML
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
網路爬蟲（python專案）
2018-12-04
爬蟲Python
什麼是網路爬蟲
2018-12-02
爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲

網路爬蟲-去除網頁原始碼中的標籤

相關文章