記錄一次使用jsoup爬取頁面
第一次瞭解爬蟲,首先要引入一個jar包:
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
引入到專案中後,編寫以下程式碼:
//實體類 用於轉換爬取到的資訊 我這裡是用了lombok外掛的 第一個依賴
@Data
@AllArgsConstructor
@NoArgsConstructor
public class Order implements Serializable {
private static final long serialVersionUID = -2561447412331251491L;
private String schedule;
private String content;
private String price;
private String range;
}
以下是爬取的方法:
/**
* @Description:
* @Author: ljp
* @CreateDate: 2020/12/23 16:18
*/
public class SpidersUtil {
public static void main(String[] args) throws Exception {
new SpidersUtil().parseJD("").forEach(System.out::println);
}
public List<Order> parseJD(String keywords) throws Exception {
List<Order> list = new ArrayList<>();
for (int i = 1; i < 4; i++) {
String url = "https://task.zbj.com/hall/bid/page" + i + ".html?so=1&ss=0";
// 解析網頁.(Jsoup返回Document就是瀏覽器的Document物件)
Document document = Jsoup.parse((new URL(url)), 30000);
Elements elements = document.getElementsByClass("demand-card");
for (Element el : elements) {
Order order = new Order();
order.setSchedule(el.getElementsByClass("card-pub-left frt").eq(0).text());
order.setContent(el.getElementsByClass("demand-card-body").eq(0).text());
order.setPrice(el.getElementsByClass("demand-price").eq(0).text());
order.setRange(el.getElementsByClass("demand-foot-tags flt").eq(0).text());
list.add(order);
}
}
System.out.println(list.size());
return list;
}
}
其實蠻簡單的,就是通過引入的jar包可以爬取網頁,將爬取到的html頁面解析為xml格式,然後再去解析這個xml拿到你需要的東西就可以了,這裡爬取的是豬八戒的招標列表,記錄一下!
相關文章
- 使用 xpath 爬取當前頁面所有城市名稱
- Java爬蟲系列三:使用Jsoup解析HTMLJava爬蟲JSHTML
- Jsoup + HtmlUtil 實現網易新聞網頁爬蟲JSHTML網頁爬蟲
- 筆記:記錄一次面試筆記面試
- 記錄一次測開面試題記錄面試題
- 記錄一次開發中遇到的問題:Vue 重新整理頁面後,頁面空白Vue
- 記錄一次面試題面試題
- puppeteer 頁面爬取例項(元素遍歷)
- 爬蟲實踐-基於Jsoup爬取Facebook群組成員資訊爬蟲JS
- Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)(下)Python爬蟲Cookie
- Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)(上)Python爬蟲Cookie
- 記錄一次nodejs爬取《17吉他》所有吉他譜(只探討技術)NodeJS
- 爬取子頁
- 如何使用python進行網頁爬取?Python網頁
- 記錄一次 Arthas 使用
- 讓 scrapy 重複爬取同一個頁面
- 一起學爬蟲——使用Beautiful Soup爬取網頁爬蟲網頁
- 爬蟲學習筆記:練習爬取多頁天涯帖子爬蟲筆記
- 爬取網頁文章網頁
- Request模組實戰01 ---簡單爬取頁面
- [實戰演練]python3使用requests模組爬取頁面內容Python
- [Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品Python爬蟲
- 一次獲取客戶端 IP 記錄客戶端
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼Python爬蟲網頁
- Java爬蟲利器HTML解析工具-JsoupJava爬蟲HTMLJS
- [網路爬蟲] Jsoup : HTML 解析工具爬蟲JSHTML
- Python筆記:網頁資訊爬取簡介(一)Python筆記網頁
- node:爬蟲爬取網頁圖片爬蟲網頁
- 記錄---前端如何優雅通知使用者重新整理頁面?前端
- 【問題記錄】— web頁面呼叫本地程式Web
- html頁面轉PDF、圖片操作記錄HTML
- Java爬蟲系列二:使用HttpClient抓取頁面HTMLJava爬蟲HTTPclientHTML
- jsoup物件的使用JS物件
- 頁面崩潰了!記錄一次測試中出現的前端記憶體溢位現象前端記憶體溢位
- Java爬蟲 爬取bing必應每日一圖背景圖下載到本地(HttpClient+Jsoup+Jackson)Java爬蟲HTTPclientJS
- Python網路爬蟲第三彈《爬取get請求的頁面資料》Python爬蟲
- 爬蟲學習日記(十一)selenium 頁面元素更新爬蟲