Java爬蟲系列三：使用Jsoup解析HTML

JAVA開發老菜鳥發表於2019-05-25

原文網址 : https://www.cnblogs.com/sam-uncle/p/10922366.html

在上一篇隨筆《Java爬蟲系列二：使用HttpClient抓取頁面HTML》中介紹了怎麼使用HttpClient進行爬蟲的第一步--抓取頁面html，今天接著來看下爬蟲的第二步--解析抓取到的html。

有請第二步的主角：Jsoup粉墨登場。下面我們把舞臺交給Jsoup，讓他完成本文剩下的內容。

============華麗的分割線=============

一、Jsoup自我介紹

大家好，我是Jsoup。

我是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和運算元據，用Java寫爬蟲的同行們十之八九用過我。為什麼呢？因為我在這個方面功能強大、使用方便。不信的話，可以繼續往下看，程式碼是不會騙人的。

二、Jsoup解析html

上一篇中，HttpClient大哥已經抓取到了部落格園首頁的html，但是一堆的程式碼，不是程式設計師的人們怎麼能看懂呢？這個就需要我這個html解析專家出場了。

下面通過案例展示如何使用Jsoup進行解析，案例中將獲取部落格園首頁的標題和第一頁的部落格文章列表

請看程式碼（在上一篇程式碼的基礎上進行操作，如果還不知道如何使用httpclient的朋友請跳轉頁面進行閱讀）：

引入依賴

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.12.1</version>
</dependency>

實現程式碼。實現程式碼之前首先要分析下html結構。標題是<title>不用說了，那文章列表呢？按下瀏覽器的F12，檢視頁面元素原始碼，你會發現列表是一個大的div，id="post_list",每篇文章是小的div,class="post_item"

接下來就可以開始程式碼了，Jsoup核心程式碼如下（整體原始碼會在文章末尾給出）：

/**
                 * 下面是Jsoup展現自我的平臺
                 */
                //6.Jsoup解析html
                Document document = Jsoup.parse(html);
                //像js一樣，通過標籤獲取title
                System.out.println(document.getElementsByTag("title").first());
                //像js一樣，通過id 獲取文章列表元素物件
                Element postList = document.getElementById("post_list");
                //像js一樣，通過class 獲取列表下的所有部落格
                Elements postItems = postList.getElementsByClass("post_item");
                //迴圈處理每篇部落格
                for (Element postItem : postItems) {
                    //像jquery選擇器一樣，獲取文章標題元素
                    Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");
                    System.out.println("文章標題:" + titleEle.text());;
                    System.out.println("文章地址:" + titleEle.attr("href"));
                    //像jquery選擇器一樣，獲取文章作者元素
                    Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");
                    System.out.println("文章作者:" + footEle.text());;
                    System.out.println("作者主頁:" + footEle.attr("href"));
                    System.out.println("*********************************");
                }

根據以上程式碼你會發現，我通過Jsoup.parse(String html)方法對httpclient獲取到的html內容進行解析獲取到Document，然後document可以有兩種方式獲取其子元素：像js一樣可以通過getElementXXXX的方式和像jquery 選擇器一樣通過select()方法。無論哪種方法都可以，我個人推薦用select方法處理。對於元素中的屬性，比如超連結地址，可以使用element.attr(String)方法獲取，對於元素的文字內容通過element.text()方法獲取。

執行程式碼，檢視結果（不得不感慨部落格園的園友們真是太厲害了，從上面分析首頁html結構到Jsoup分析的程式碼執行完，這段時間首頁多了那麼多文章）
由於新文章釋出的太快了，導致上面的截圖和這裡的輸出有些不一樣。

三、Jsoup的其他用法

我，Jsoup，除了可以在httpclient大哥的工作成果上發揮作用，我還能自己獨立幹活，自己抓取頁面，然後自己分析。分析的本領已經在上面展示過了，下面來展示自己抓取頁面，其實很簡單，所不同的是我直接獲取到的是document，不用再通過Jsoup.parse()方法進行解析了。

除了能直接訪問網上的資源，我還能解析本地資源：

程式碼：

public static void main(String[] args) {
        try {
            Document document = Jsoup.parse(new File("d://1.html"), "utf-8");
            System.out.println(document);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

四、Jsoup另一個值得一提的功能

你肯定有過這種經歷，在你的頁面文字框中，如果輸入html元素的話，儲存後再檢視很大概率會導致頁面排版亂七八糟，如果能對這些內容進行過濾的話，就完美了。

剛好我Jsoup就能做到。

public static void main(String[] args) {
        String unsafe = "<p><a href='網址' onclick='stealCookies()'>部落格園</a></p>";
        System.out.println("unsafe: " + unsafe);
        String safe = Jsoup.clean(unsafe, Whitelist.basic());
        System.out.println("safe: " + safe);
    }

通過Jsoup.clean方法，用一個白名單進行過濾。執行結果：

unsafe: <p><a href='網址' onclick='stealCookies()'>部落格園</a></p>
safe: <p><a rel="nofollow">部落格園</a></p>

五、結束語

通過以上大家相信我很強大了吧，不僅可以解析HttpClient抓取到的html元素，我自己也能抓取頁面dom，我還能load並解析本地儲存的html檔案。

此外，我還能通過一個白名單對字串進行過濾，篩掉一些不安全的字元。

最最重要的，上面所有功能的API的呼叫都比較簡單。

============華麗的分割線=============

碼字不易，點個贊再走唄~~

最後，附上案例中解析部落格園首頁文章列表的完整原始碼：

package httpclient_learn;

import java.io.IOException;

import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HttpClientTest {
    
    public static void main(String[] args) {
        //1.生成httpclient，相當於該開啟一個瀏覽器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.建立get請求，相當於在瀏覽器位址列輸入 網址
        HttpGet request = new HttpGet("https://www.cnblogs.com/");
        //設定請求頭，將爬蟲偽裝成瀏覽器
        request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36");
//        HttpHost proxy = new HttpHost("60.13.42.232", 9999);
//        RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
//        request.setConfig(config);
        try {
            //3.執行get請求，相當於在輸入位址列後敲Enter鍵
            response = httpClient.execute(request);
            
            //4.判斷響應狀態為200，進行處理
            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                //5.獲取響應內容
                HttpEntity httpEntity = response.getEntity();
                String html = EntityUtils.toString(httpEntity, "utf-8");
                System.out.println(html);
                
                /**
                 * 下面是Jsoup展現自我的平臺
                 */
                //6.Jsoup解析html
                Document document = Jsoup.parse(html);
                //像js一樣，通過標籤獲取title
                System.out.println(document.getElementsByTag("title").first());
                //像js一樣，通過id 獲取文章列表元素物件
                Element postList = document.getElementById("post_list");
                //像js一樣，通過class 獲取列表下的所有部落格
                Elements postItems = postList.getElementsByClass("post_item");
                //迴圈處理每篇部落格
                for (Element postItem : postItems) {
                    //像jquery選擇器一樣，獲取文章標題元素
                    Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");
                    System.out.println("文章標題:" + titleEle.text());;
                    System.out.println("文章地址:" + titleEle.attr("href"));
                    //像jquery選擇器一樣，獲取文章作者元素
                    Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");
                    System.out.println("文章作者:" + footEle.text());;
                    System.out.println("作者主頁:" + footEle.attr("href"));
                    System.out.println("*********************************");
                }
                
                
            } else {
                //如果返回狀態不是200，比如404（頁面不存在）等，根據情況做處理，這裡略
                System.out.println("返回狀態不是200");
                System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
            }
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //6.關閉
            HttpClientUtils.closeQuietly(response);
            HttpClientUtils.closeQuietly(httpClient);
        }
    }
}

View Code

Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
Java中使用Jsoup解析HTML表格教程
2024-03-17
JavaJSHTML
JAVA 解析html 型別字串（使用jsoup）
2024-08-16
JavaHTML型別字串JS
【Java】Jsoup 解析HTML報告
2024-08-02
JavaJSHTML
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
使用java的HTML解析器 jsoup來防止XSS攻擊
2020-12-12
JavaHTMLJS
Java培訓教程之使用Jsoup實現簡單的爬蟲技術
2021-07-12
JavaJS爬蟲
jsoup爬蟲技術+druid連線池
2018-03-21
JS爬蟲UI
爬蟲-使用BeautifulSoup4（bs4）解析html資料
2021-01-24
爬蟲HTML
使用java 爬蟲
2020-10-05
Java爬蟲
Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Jsoup + HtmlUtil 實現網易新聞網頁爬蟲
2019-01-14
JSHTML網頁爬蟲
Java爬蟲爬取bing必應每日一圖背景圖下載到本地(HttpClient+Jsoup+Jackson)
2020-10-20
Java爬蟲HTTPclientJS
Java爬蟲系列四：使用selenium-java爬取js非同步請求的資料
2021-10-17
Java爬蟲JS非同步
爬蟲實踐－基於Jsoup爬取Facebook群組成員資訊
2019-03-04
爬蟲JS
Python 爬蟲實戰（二）：使用 requests-html
2018-03-14
Python爬蟲HTML
用 Java 拿下 HTML 分分鐘寫個小爬蟲
2020-09-21
JavaHTML爬蟲
Python 爬蟲系列
2021-01-01
Python爬蟲
爬蟲系列：使用 MySQL 儲存資料
2021-12-09
爬蟲MySql
網路爬蟲技術Jsoup——爬到一切你想要的
2022-02-02
爬蟲JS
Python爬蟲開發與專案實戰 4: HTML解析大法
2018-05-15
Python爬蟲HTML
python爬蟲系列版
2018-03-16
Python爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
JAVA爬蟲使用Selenium自動翻頁
2024-05-15
Java爬蟲
記錄一次使用jsoup爬取頁面
2020-12-23
JS
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲與Java爬蟲有何區別？
2022-06-01
Python爬蟲Java
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Java爬蟲翻頁
2024-07-09
Java爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS

Java爬蟲系列三：使用Jsoup解析HTML

相關文章