Java爬蟲利器HTML解析工具-Jsoup

悠悠i發表於2019-06-21

原文網址 : https://www.cnblogs.com/youyoui/p/11063654.html

Java爬蟲HTMLJS

Jsoup簡介

Java爬蟲解析HTML文件的工具有：htmlparser, Jsoup。本文將會詳細介紹Jsoup的使用方法，10分鐘搞定Java爬蟲HTML解析。

Jsoup可以直接解析某個URL地址、HTML文字內容，它提供非常豐富的處理Dom樹的API。如果你使用過JQuery，那你一定會非常熟悉。

Jsoup最強大的莫過於它的CSS選擇器支援了。比如：document.select("div.content > div#image > ul > li:eq(2)。

包引入方法

Maven

新增下面的依賴宣告即可，最新版本是（1.12.1）

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.11.3</version>
</dependency>

Gradle

// jsoup HTML parser library @ https://jsoup.org/
compile 'org.jsoup:jsoup:1.11.3'

原始碼安裝

當然也可以直接把jar包下載下來，下載地址：https://jsoup.org/download

# git獲取程式碼
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

# 下載程式碼
curl -Lo jsoup.zip https://github.com/jhy/jsoup/archive/master.zip
unzip jsoup.zip
cd jsoup-master
mvn install

Jsoup解析方法

Jsoup支援四種方式解析Document，即可以輸入四種內容得到一個Document：

解析字串
解析body片段
從一個URL解析
從一個檔案解析

字串解析示例

字串中必須包含head和body元素。

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

HTML片段解析

String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();

從URL解析

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

還可以攜帶cookie等引數：

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

從檔案解析

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Jsoup遍歷DOM樹的方法

使用標準的DOM方法

Jsoup封裝並實現了DOM裡面常用的元素遍歷方法：

根據id查詢元素: getElementById(String id)
根據標籤查詢元素: getElementsByTag(String tag)
根據class查詢元素: getElementsByClass(String className)
根據屬性查詢元素: getElementsByAttribute(String key)
兄弟遍歷方法: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
層級之間遍歷: parent(), children(), child(int index)

這些方法會返回Element或者Elements節點物件，這些物件可以使用下面的方法獲取一些屬性：

attr(String key): 獲取某個屬性值
attributes(): 獲取節點的所有屬性
id(): 獲取節點的id
className(): 獲取當前節點的class名稱
classNames(): 獲取當前節點的所有class名稱
text(): 獲取當前節點的textNode內容
html(): 獲取當前節點的 inner HTML
outerHtml(): 獲取當前節點的 outer HTML
data(): 獲取當前節點的內容，用於script或者style標籤等
tag(): 獲取標籤
tagName(): 獲取當前節點的標籤名稱

有了這些API，就像JQuery一樣很便利的操作DOM。

強大的CSS選擇器支援

你可能會說htmlparse支援xpath，可以很方便的定位某個元素，而不用一層一層地遍歷DOM樹。呼叫方法如下：

document.select(String selector): 選擇匹配選擇器的元素，返回是Elements物件
document.selectFirst(String selector): 選擇匹配選擇器的第一個元素，返回是一個Element物件
element.select(String selector): 也可以直接在Element物件上執行選擇方法

Jsoup能夠完美的支援CSS的選擇器語法，可以說對應有前端經驗的開發者來說簡直是福音，不用特意去學習XPath的語法。

比如一個XPath： //*[@id="docs"]/div[1]/h4/a，可以轉成等效的CSS選擇器語法： document.select("#docs > div:eq(1) > h4 > a").attr("href");。

看下面的示例：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://baidu.com/");

Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]"); // img with src ending .png

Element masthead = doc.select("div.masthead").first(); // div with class=masthead

Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

下面列出一些常見的選擇器：

標籤選擇(如div): tag
id選擇(#logo): #id
class選擇(.head): .class
屬性選擇([href]): [attribute]
屬性值選擇: [attr=value]
屬性字首匹配: [^attr]
屬性簡單正則匹配: [attr^=value], [attr$=value], [attr*=value], [attr~=regex]

另外還支援下面的組合選擇器：

element#id: (div#logo: 選取id為logo的div元素)
element.class: (div.content: 選擇class包括content的div元素)
element[attr]: (a[href]: 選擇包含href的a元素)
ancestor child: (div p: 選擇div元素的所有p後代元素)
parent > child: (p > span: 選擇p元素的直接子元素中的span元素)
siblingA + siblingB: (div.head + div: 選取div.head的下一個兄弟div元素)
siblingA ~ siblingX: (h1 ~ p: 選取h1後面的所有p兄弟元素)
el, el, el: (div.content, div.footer: 同時選取div.content和div.footer)

當然，還支援偽元素選擇器：

:lt(n): (div#logo > li:lt(2): 選擇id為logo的div元素的前3個li子元素)
:gt(n)
:eq(n)
:has(selector)
:not(selector)
:contains(text)

詳細可參考官方選擇器語法文件： https://jsoup.org/cookbook/extracting-data/selector-syntax

Jsoup修改DOM樹結構

當然Jsoup還支援修改DOM樹結構，真的很像JQuery。

// 設定屬性
doc.select("div.comments a").attr("rel", "nofollow");

// 設定class
doc.select("div.masthead").attr("title", "jsoup").addClass("round-box");

//

下面的API可以直接操作DOM樹結構：

text(String value): 設定內容
html(String value): 直接替換HTML結構
append(String html): 元素後面新增節點
prepend(String html): 元素前面新增節點
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)

參考文件

Jsoup官網地址： https://jsoup.org/
Jsoup官網指導文件： https://jsoup.org/cookbook/
Jsoupjar包下載地址： https://jsoup.org/download
JsoupCSS選擇器參考: https://jsoup.org/cookbook/extracting-data/selector-syntax

[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
Java爬蟲系列三：使用Jsoup解析HTML
2019-05-25
Java爬蟲JSHTML
【Java】Jsoup 解析HTML報告
2024-08-02
JavaJSHTML
Java中使用Jsoup解析HTML表格教程
2024-03-17
JavaJSHTML
JAVA 解析html 型別字串（使用jsoup）
2024-08-16
JavaHTML型別字串JS
Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
jsoup爬蟲技術+druid連線池
2018-03-21
JS爬蟲UI
使用java的HTML解析器 jsoup來防止XSS攻擊
2020-12-12
JavaHTMLJS
Html 解析利器-goquery
2021-04-18
HTMLGo
Java培訓教程之使用Jsoup實現簡單的爬蟲技術
2021-07-12
JavaJS爬蟲
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
Jsoup + HtmlUtil 實現網易新聞網頁爬蟲
2019-01-14
JSHTML網頁爬蟲
Java爬蟲爬取bing必應每日一圖背景圖下載到本地(HttpClient+Jsoup+Jackson)
2020-10-20
Java爬蟲HTTPclientJS
Java爬蟲快速開發工具：uncs
2019-01-15
Java爬蟲
爬蟲實踐－基於Jsoup爬取Facebook群組成員資訊
2019-03-04
爬蟲JS
用 Java 拿下 HTML 分分鐘寫個小爬蟲
2020-09-21
JavaHTML爬蟲
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
爬蟲-使用BeautifulSoup4（bs4）解析html資料
2021-01-24
爬蟲HTML
python併發爬蟲利器tomorrow(一)
2018-10-16
Python爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
網路爬蟲技術Jsoup——爬到一切你想要的
2022-02-02
爬蟲JS
Python爬蟲開發與專案實戰 4: HTML解析大法
2018-05-15
Python爬蟲HTML
使用java 爬蟲
2020-10-05
Java爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
Python爬蟲工具列表
2018-11-15
Python爬蟲
Java爬蟲快速開發工具uncs的部署攻略
2019-05-30
Java爬蟲
Python3爬蟲利器：Appium的安裝
2021-09-11
Python爬蟲APP
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲與Java爬蟲有何區別？
2022-06-01
Python爬蟲Java
Java爬蟲翻頁
2024-07-09
Java爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
Python 爬蟲的工具鏈
2018-09-22
Python爬蟲
如何選擇爬蟲工具？
2022-05-17
爬蟲
Python2爬蟲利器：requests庫的基本用法
2021-09-11
Python爬蟲