記錄一次使用jsoup爬取頁面

羅俊朋發表於2020-12-23

原文網址 : https://blog.csdn.net/weixin_43470118/article/details/111595227

第一次瞭解爬蟲，首先要引入一個jar包：

		<dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

引入到專案中後，編寫以下程式碼：

//實體類 用於轉換爬取到的資訊 我這裡是用了lombok外掛的 第一個依賴
@Data
@AllArgsConstructor
@NoArgsConstructor
public class Order implements Serializable {
    private static final long serialVersionUID = -2561447412331251491L;

    private String schedule;
    private String content;
    private String price;
    private String range;

}

以下是爬取的方法：

/**
 * @Description:
 * @Author: ljp
 * @CreateDate: 2020/12/23 16:18
 */
public class SpidersUtil {

    public static void main(String[] args) throws Exception {
        new SpidersUtil().parseJD("").forEach(System.out::println);
    }

    public List<Order> parseJD(String keywords) throws Exception {
        List<Order> list = new ArrayList<>();
        for (int i = 1; i < 4; i++) {
            String url = "https://task.zbj.com/hall/bid/page" + i + ".html?so=1&ss=0";
            // 解析網頁.（Jsoup返回Document就是瀏覽器的Document物件）
            Document document = Jsoup.parse((new URL(url)), 30000);
            Elements elements = document.getElementsByClass("demand-card");
            for (Element el : elements) {
                Order order = new Order();
                order.setSchedule(el.getElementsByClass("card-pub-left frt").eq(0).text());
                order.setContent(el.getElementsByClass("demand-card-body").eq(0).text());
                order.setPrice(el.getElementsByClass("demand-price").eq(0).text());
                order.setRange(el.getElementsByClass("demand-foot-tags flt").eq(0).text());
                list.add(order);
            }
        }
        System.out.println(list.size());
        return list;
    }
}

其實蠻簡單的，就是通過引入的jar包可以爬取網頁，將爬取到的html頁面解析為xml格式，然後再去解析這個xml拿到你需要的東西就可以了，這裡爬取的是豬八戒的招標列表，記錄一下！

使用 xpath 爬取當前頁面所有城市名稱
2020-10-28
Java爬蟲系列三：使用Jsoup解析HTML
2019-05-25
Java爬蟲JSHTML
Jsoup + HtmlUtil 實現網易新聞網頁爬蟲
2019-01-14
JSHTML網頁爬蟲
筆記：記錄一次面試
2018-10-18
筆記面試
記錄一次測開面試題記錄
2020-09-16
面試題
記錄一次開發中遇到的問題：Vue 重新整理頁面後，頁面空白
2019-09-18
Vue
記錄一次面試題
2021-04-11
面試題
puppeteer 頁面爬取例項（元素遍歷）
2018-12-07
爬蟲實踐－基於Jsoup爬取Facebook群組成員資訊
2019-03-04
爬蟲JS
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
記錄一次nodejs爬取《17吉他》所有吉他譜（只探討技術）
2019-03-03
NodeJS
爬取子頁
2018-08-24
如何使用python進行網頁爬取?
2020-08-06
Python網頁
記錄一次 Arthas 使用
2020-07-17
讓 scrapy 重複爬取同一個頁面
2019-09-25
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
爬取網頁文章
2021-09-29
網頁
Request模組實戰01 ---簡單爬取頁面
2020-12-08
[實戰演練]python3使用requests模組爬取頁面內容
2021-09-09
Python
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
一次獲取客戶端 IP 記錄
2019-12-19
客戶端
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
Python筆記：網頁資訊爬取簡介（一）
2020-11-11
Python筆記網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
記錄---前端如何優雅通知使用者重新整理頁面？
2024-11-29
前端
【問題記錄】— web頁面呼叫本地程式
2020-11-29
Web
html頁面轉PDF、圖片操作記錄
2020-11-24
HTML
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
jsoup物件的使用
2020-12-04
JS物件
頁面崩潰了！記錄一次測試中出現的前端記憶體溢位現象
2022-12-27
前端記憶體溢位
Java爬蟲爬取bing必應每日一圖背景圖下載到本地(HttpClient+Jsoup+Jackson)
2020-10-20
Java爬蟲HTTPclientJS
Python網路爬蟲第三彈《爬取get請求的頁面資料》
2018-09-14
Python爬蟲
爬蟲學習日記（十一）selenium 頁面元素更新
2019-03-14
爬蟲

記錄一次使用jsoup爬取頁面

相關文章