用 Java 拿下 HTML 分分鐘寫個小爬蟲

qwer1030274531發表於2020-09-21

原文網址 : http://blog.itpub.net/30239065/viewspace-2723014/

JavaHTML爬蟲

本文適合有 Java 基礎知識的人群

本文作者：HelloGitHub-秦人

HelloGitHub 推出的《講解開源專案》系列，今天給大家帶來一款開源 Java 版一款網頁元素解析框架——jsoup，通過程式自動獲取網頁資料。

專案原始碼地址：https://github.com/jhy/jsoup

一、專案介紹

jsoup 是一款 Java 的 HTML 解析器。可直接解析某個 URL 地址的 HTML 文字內容。它提供了一套很省力的 API，可通過 DOM、CSS 以及類似於 jQuery 選擇器的操作方法來取出和運算元據。

jsoup 主要功能：

從一個 URL、檔案或字串中解析 HTML。
使用 DOM 或 CSS 選擇器來查詢、取出資料。
可操作 HTML 元素、屬性、文字。

二、使用框架

2.1 準備工作

掌握 HTML 語法
Chrome 瀏覽器除錯技巧
掌握開發工具 idea 的基本操作

2.2 學習原始碼

將專案匯入 idea 開發工具，會自動下載 maven 專案需要的依賴。原始碼的專案結構如下：

快速學習原始碼是每個程式設計師必備的技能，我總結了以下幾點：

閱讀專案 ReadMe 檔案，可以快速知道專案是做什麼的。
概覽專案 pom.xml 檔案，瞭解專案引用了哪些依賴。
檢視專案結構、原始碼目錄、測試用例目錄，好的專案結構清晰，層次明確。
執行測試用例，快速體驗專案。

2.3 下載專案

git clone https://github.com/jhy/jsoup

2.4 執行專案測試程式碼

通過上面的方法，我們很快可知 example 目錄是測試程式碼，那我們直接來執行。注：有些測試程式碼需要稍微改造一下才可以執行。

例如，jsoup 的 Wikipedia 測試程式碼：

public class Wikipedia {
    public static void main(String[] args) throws IOException {
        Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
        log(doc.title());

        Elements newsHeadlines = doc.select("#mp-itn b a");
        for (Element headline : newsHeadlines) {
            log("%s\n\t%s", headline.attr("title"), headline.absUrl("href"));
        }
    }

    private static void log(String msg, String... vals) {
        System.out.println(String.format(msg, vals));
    }
}

說明：上面程式碼是獲取頁面（http://en.wikipedia.org/）包含（#mp-itn b a）選擇器的所有元素，並列印這些元素的 title , herf 屬性。 維基百科 國內無法訪問，所以上面這段程式碼執行會報錯。

改造後可執行的程式碼如下：

public static void main(String[] args) throws IOException {
    Document doc = Jsoup.connect("https://www.baidu.com/").get();
    Elements newsHeadlines = doc.select("a[href]");
    for (Element headline : newsHeadlines) {
        System.out.println("href: " +headline.absUrl("href") );
    }
}

三、工作原理

Jsoup 的工作原理，首先需要指定一個 URL，框架傳送 HTTP 請求，然後獲取響應頁面內容，然後通過各種選擇器獲取頁面資料。整個工作流程如下圖：

以上面為例：

3.1 發請求

Document doc = Jsoup.connect("https://www.baidu.com/").get();

這行程式碼就是傳送 HTTP 請求，並獲取頁面響應資料。

3.2 資料篩選

Elements newsHeadlines = doc.select("a[href]");

定義選擇器，獲取匹配選擇器的資料。

3.3 資料處理

for (Element headline : newsHeadlines) {
        System.out.println("href: " +headline.absUrl("href") );
    }

這裡對資料只做了一個簡單的資料列印，當然這些資料可寫入檔案或資料的。

四、實戰

獲取豆瓣讀書 -> 新書速遞中每本新書的基本資訊。包括：書名、書圖片連結、作者、內容簡介（詳情頁面）、作者簡介（詳情頁面）、噹噹網書的價格（詳情頁面），最後將獲取的資料儲存到 Excel 檔案。

目標連結：https://book.douban.com/latest?icn=index-latestbook-all

4.1 專案 pom.xml 檔案

專案引入 jsoup、lombok、easyexcel 三個庫。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>JsoupTest</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
        <maven.compiler.target>1.8</maven.compiler.target>
        <maven.compiler.source>1.8</maven.compiler.source>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.12</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>easyexcel</artifactId>
            <version>2.2.6</version>
        </dependency>
    </dependencies>
</project>

4.2 解析頁面資料

public class BookInfoUtils {

    public static List<BookEntity> getBookInfoList(String url) throws IOException {
        List<BookEntity>  bookEntities=new ArrayList<>();
        Document doc = Jsoup.connect(url).get();
        Elements liDiv = doc.select("#content > div > div.article > ul > li");
        for (Element li : liDiv) {
            Elements urls = li.select("a[href]");
            Elements imgUrl = li.select("a > img");
            Elements bookName = li.select(" div > h2 > a");
            Elements starsCount = li.select(" div > p.rating > span.font-small.color-lightgray");
            Elements author = li.select("div > p.color-gray");
            Elements description = li.select(" div > p.detail");

            String bookDetailUrl = urls.get(0).attr("href");
            BookDetailInfo detailInfo = getDetailInfo(bookDetailUrl);
            BookEntity bookEntity = BookEntity.builder()
                    .detailPageUrl(bookDetailUrl)
                    .bookImgUrl(imgUrl.attr("src"))
                    .bookName(bookName.html())
                    .starsCount(starsCount.html())
                    .author(author.text())
                    .bookDetailInfo(detailInfo)
                    .description(description.html())
                    .build();
//            System.out.println(bookEntity);
            bookEntities.add(bookEntity);
        }
        return bookEntities;
    }
    /**
     *
     * @param detailUrl
     * @return
     * @throws IOException
     */
    public static BookDetailInfo getDetailInfo(String detailUrl)throws IOException{

        Document doc = Jsoup.connect(detailUrl).get();
        Elements content = doc.select("body");

        Elements price = content.select("#buyinfo-printed > ul.bs.current-version-list > li:nth-child(2) > div.cell.price-btn-wrapper > div.cell.impression_track_mod_buyinfo > div.cell.price-wrapper > a > span");
        Elements author = content.select("#info > span:nth-child(1) > a");
        BookDetailInfo bookDetailInfo = BookDetailInfo.builder()
                .author(author.html())
                .authorUrl(author.attr("href"))
                .price(price.html())
                .build();
        return bookDetailInfo;
    }
}

這裡的重點是要獲取網頁對應元素的選擇器。

例如：獲取 li.select("div > p.color-gray") 中 div > p.color-gray 是怎麼知道的。

使用 chrome 的小夥伴應該都猜到了。開啟 chrome 瀏覽器 Debug 模式，Ctrl + Shift +C 選擇一個元素,然後在 html 右鍵選擇 Copy ->Copy selector,這樣就可以獲取當前元素的選擇器。如下圖：

4.3 儲存資料到 Excel

為了資料更好檢視，我將通過 jsoup 抓取的資料儲存的 Excel 檔案，這裡我使用的 easyexcel 快速生成 Excel 檔案。

Excel 表頭資訊

@Data
@Builder
public class ColumnData {

    @ExcelProperty("書名稱")
    private String bookName;

    @ExcelProperty("評分")
    private String starsCount;

    @ExcelProperty("作者")
    private String author;

    @ExcelProperty("封面圖片")
    private String bookImgUrl;

    @ExcelProperty("簡介")
    private String description;

    @ExcelProperty("單價")
    private String price;
}

生成 Excel 檔案

public class EasyExcelUtils {

    public static void simpleWrite(List<BookEntity> bookEntityList) {
        String fileName = "D:\\devEnv\\JsoupTest\\bookList" + System.currentTimeMillis() + ".xlsx";
        EasyExcel.write(fileName, ColumnData.class).sheet("書本詳情").doWrite(data(bookEntityList));
        System.out.println("excel檔案生成完畢...");
    }
    private static List<ColumnData> data(List<BookEntity> bookEntityList) {
        List<ColumnData> list = new ArrayList<>();
        bookEntityList.forEach(b -> {
            ColumnData data = ColumnData.builder()
                    .bookName(b.getBookName())
                    .starsCount(b.getStarsCount())
                    .author(b.getBookDetailInfo().getAuthor())
                    .bookImgUrl(b.getBookImgUrl())
                    .description(b.getDescription())
                    .price(b.getBookDetailInfo().getPrice())
                    .build();
            list.add(data);
        });
        return list;
    }
}

4.4 最終展示效果

最終的效果如下圖：

以上就是從想法到實踐，我們就在實戰中使用了 jsoup 的基本操作。

完整程式碼地址：https://github.com/hellowHuaairen/JsoupTest

五、最後

Java HTML Parser 庫：jsoup，把它當成簡單的爬蟲，用起來還是很方便的吧？

為什麼會講爬蟲？大資料，人工智慧時代玩的就是資料，資料很重要。作為懂點技術的我們，也需要掌握一種獲取網路資料的技能。當然也有一些工具 Fiddler、webscraper 等也可以抓取你想要的資料。

教程至此，你應該也能對 jsoup 有一些感覺了吧。程式設計是不是也特別有意思呢？參考我上面的實戰案例，有好多網站可以實踐一下啦～歡迎在評論區曬你的實戰。

六、參考資料

關注 HelloGitHub 公眾號

分分鐘教你用node.js寫個爬蟲
2018-07-18
Node.js爬蟲
寫個爬蟲唄
2019-02-25
爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
Java爬蟲系列三：使用Jsoup解析HTML
2019-05-25
Java爬蟲JSHTML
5 個用 Python 編寫 web 爬蟲的方法
2018-05-20
PythonWeb爬蟲
面試—html語義化，SEO的原理，什麼是爬蟲、怎麼去寫一個爬蟲
2018-08-07
面試HTML爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
爬蟲——三個小實戰
2018-09-21
爬蟲
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
用Golang寫爬蟲(六) - 使用colly
2019-07-18
Golang爬蟲
什麼是網路爬蟲?為什麼用Python寫爬蟲?
2021-03-08
爬蟲Python
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
如何編寫一個Perl爬蟲程式
2023-11-14
爬蟲
基於 Lua 寫一個爬蟲程式
2023-11-14
爬蟲
如何自己寫一個網路爬蟲
2020-02-27
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的
2019-05-27
爬蟲
用Node寫頁面爬蟲的工具集
2018-10-24
爬蟲
為什麼寫爬蟲用Python語言?
2020-12-01
爬蟲Python
乾貨 | 分分鐘教你用Python建立一個區塊鏈
2018-03-02
Python區塊鏈
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
使用java 爬蟲
2020-10-05
Java爬蟲
3.26爬蟲小記
2019-03-26
爬蟲
爬蟲小專案
2019-05-10
爬蟲
3.22 爬蟲小記
2019-03-22
爬蟲
Go 爬蟲小例
2022-05-24
Go爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
[譯] 30 分鐘 Python 爬蟲教程
2018-05-15
Python爬蟲
三分鐘爬蟲入門
2020-05-18
爬蟲