記錄一次使用jsoup爬取頁面
第一次瞭解爬蟲,首先要引入一個jar包:
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
引入到專案中後,編寫以下程式碼:
//實體類 用於轉換爬取到的資訊 我這裡是用了lombok外掛的 第一個依賴
@Data
@AllArgsConstructor
@NoArgsConstructor
public class Order implements Serializable {
private static final long serialVersionUID = -2561447412331251491L;
private String schedule;
private String content;
private String price;
private String range;
}
以下是爬取的方法:
/**
* @Description:
* @Author: ljp
* @CreateDate: 2020/12/23 16:18
*/
public class SpidersUtil {
public static void main(String[] args) throws Exception {
new SpidersUtil().parseJD("").forEach(System.out::println);
}
public List<Order> parseJD(String keywords) throws Exception {
List<Order> list = new ArrayList<>();
for (int i = 1; i < 4; i++) {
String url = "https://task.zbj.com/hall/bid/page" + i + ".html?so=1&ss=0";
// 解析網頁.(Jsoup返回Document就是瀏覽器的Document物件)
Document document = Jsoup.parse((new URL(url)), 30000);
Elements elements = document.getElementsByClass("demand-card");
for (Element el : elements) {
Order order = new Order();
order.setSchedule(el.getElementsByClass("card-pub-left frt").eq(0).text());
order.setContent(el.getElementsByClass("demand-card-body").eq(0).text());
order.setPrice(el.getElementsByClass("demand-price").eq(0).text());
order.setRange(el.getElementsByClass("demand-foot-tags flt").eq(0).text());
list.add(order);
}
}
System.out.println(list.size());
return list;
}
}
其實蠻簡單的,就是通過引入的jar包可以爬取網頁,將爬取到的html頁面解析為xml格式,然後再去解析這個xml拿到你需要的東西就可以了,這裡爬取的是豬八戒的招標列表,記錄一下!
相關文章
- puppeteer 頁面爬取例項(元素遍歷)
- 記錄一次開發中遇到的問題:Vue 重新整理頁面後,頁面空白Vue
- 記錄一次爬取淘寶/天貓評論資料的過程
- Jsoup + HtmlUtil 實現網易新聞網頁爬蟲JSHTML網頁爬蟲
- java爬蟲入門--用jsoup爬取汽車之家的新聞Java爬蟲JS
- Request模組實戰01 ---簡單爬取頁面
- Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)(下)Python爬蟲Cookie
- Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)(上)Python爬蟲Cookie
- 爬取js渲染過的頁面(爬取一個婚慶網站為例)JS網站
- Java爬蟲系列三:使用Jsoup解析HTMLJava爬蟲JSHTML
- 爬蟲實踐-基於Jsoup爬取Facebook群組成員資訊爬蟲JS
- [實戰演練]python3使用requests模組爬取頁面內容Python
- 記錄一次nodejs爬取《17吉他》所有吉他譜(只探討技術)NodeJS
- 一起學爬蟲——使用Beautiful Soup爬取網頁爬蟲網頁
- 爬蟲學習筆記:練習爬取多頁天涯帖子爬蟲筆記
- [Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品Python爬蟲
- 爬取網頁文章網頁
- Java爬蟲系列二:使用HttpClient抓取頁面HTMLJava爬蟲HTTPclientHTML
- 使用Nginx+Memcache做頁面快取Nginx快取
- html頁面轉PDF、圖片操作記錄HTML
- 【問題記錄】— web頁面呼叫本地程式Web
- 如何使用python進行網頁爬取?Python網頁
- Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼Python爬蟲網頁
- Java 爬蟲(獲取指定頁面中所有的郵箱地址)Java爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 一次獲取客戶端 IP 記錄客戶端
- 頁面崩潰了!記錄一次測試中出現的前端記憶體溢位現象前端記憶體溢位
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- 單頁面開發--爬坑
- 去除頁面快取快取
- node:爬蟲爬取網頁圖片爬蟲網頁
- Python網路爬蟲第三彈《爬取get請求的頁面資料》Python爬蟲
- 爬蟲學習日記(十一)selenium 頁面元素更新爬蟲
- Ehcache 整合Spring 使用頁面、物件快取Spring物件快取
- Python筆記:網頁資訊爬取簡介(一)Python筆記網頁
- go語言實現簡單爬蟲獲取頁面圖片Go爬蟲
- 記錄一次失敗的騰訊前端實習生電面前端
- Jsoup教程,jsoup開發指南,jsoup中文使用手冊,jsoup中文文件JS