Python爬蟲之XPath語法

lhrbest發表於2019-05-20

原文網址 : http://blog.itpub.net/26736162/viewspace-2644959/

xpath ，全稱 XML Path Language ，即 XML 路徑語言，它是一門在 XML 文件中查詢資訊的語言。
xpath 的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式，幾乎所有我們想要定位的節點都可以用 xpath 來選擇。

什麼是 XPath?

XPath 使用路徑表示式在 XML 文件中進行導航
XPath 包含一個標準函式庫
XPath 是 XSLT 中的主要元素
XPath 是一個 W3C 標準

XPath 路徑表示式

XPath 使用路徑表示式來選取 XML 文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的表示式非常相似。

XPath 標準函式

XPath 含有超過 100 個內建的函式。這些函式用於字串值、數值、日期和時間比較、節點和 QName 處理、序列處理、邏輯值等等。

在 XPath 中，有七種型別的節點：元素、屬性、文字、名稱空間、處理指令、註釋以及文件節點（或稱為根節點）。

XPath 術語

節點（Node）

在 XPath 中，有七種型別的節點：元素、屬性、文字、名稱空間、處理指令、註釋以及文件（根）節點。XML 文件是被作為節點樹來對待的。樹的根被稱為文件節點或者根節點。

請看下面這個 XML 文件：

<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book>   <title>Harry Potter</title>   <author>J K. Rowling</author>    <year>2005</year>   <price>29.99</price> </book> </bookstore>

上面的XML文件中的節點例子：

<bookstore> （文件節點） <author>J K. Rowling</author> （元素節點） （屬性節點）

基本值（或稱原子值，Atomic value）

基本值是無父或無子的節點。

基本值的例子：

J K. Rowling "en"

專案（Item）

專案是基本值或者節點。

節點關係

父（Parent）

每個元素以及屬性都有一個父。

在下面的例子中，book 元素是 title、author、year 以及 price 元素的父：

<book>   <title>Harry Potter</title>   <author>J K. Rowling</author>   <year>2005</year>   <price>29.99</price> </book>

子（Children）

元素節點可有零個、一個或多個子。

在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

<book>   <title>Harry Potter</title>   <author>J K. Rowling</author>   <year>2005</year>   <price>29.99</price> </book>

同胞（Sibling）

擁有相同的父的節點

在下面的例子中，title、author、year 以及 price 元素都是同胞：

<book>   <title>Harry Potter</title>   <author>J K. Rowling</author>   <year>2005</year>   <price>29.99</price> </book>

先輩（Ancestor）

某節點的父、父的父，等等。

在下面的例子中，title 元素的先輩是 book 元素和 bookstore 元素：

<bookstore> <book>   <title>Harry Potter</title>   <author>J K. Rowling</author>   <year>2005</year>   <price>29.99</price> </book> </bookstore>

後代（Descendant）

某個節點的子，子的子，等等。

在下面的例子中，bookstore 的後代是 book、title、author、year 以及 price 元素：

<bookstore> <book>   <title>Harry Potter</title>   <author>J K. Rowling</author>   <year>2005</year>   <price>29.99</price> </book> </bookstore>

節點關係

在 XPath 中，有七種型別的節點：元素、屬性、文字、名稱空間、處理指令、註釋以及文件節點（或稱為根節點）

再舉個例子

<url>

<loc>https://qq52o.me</loc>

<changefreq>daily</changefreq>

</url>

</urlset>

第一個：父（Parent）

每個元素以及屬性都有一個父

url 元素是 loc 、 lastmod 、 changefreq 以及 priority 元素的父

第二個：子（Children）

元素節點可有零個、一個或多個子

loc 、 lastmod 、 changefreq 以及 priority 元素都是 url 元素的子

第三個：同胞（Sibling）

擁有相同的父的節點

loc 、 lastmod 、 changefreq 以及 priority 元素都是 url 元素的同胞

第四個：先輩（Ancestor）

某節點的父、父的父，等等

loc 元素的先輩是 url 元素和 urlset 元素

第五個：後代（Descendant）

某個節點的子，子的子，等等

urlset 的後代是 url 、 loc 、 lastmod 、 changefreq 以及 priority 元素

如果你分不清楚，就按照子元素從上到下的去找元素節點

XPath 使用路徑表示式來選取 XML 文件中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

XML 例項文件

我們將在下面的例子中使用這個 XML 文件。

<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book>   <title>Harry Potter</title>   <price>29.99</price> </book> <book>   <title>Learning XML</title>   <price>39.95</price> </book> </bookstore>

選取節點

XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

下面列出了最有用的路徑表示式：

表示式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

例項

在下面的表格中，我們已列出了一些路徑表示式以及表示式的結果：

路徑表示式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文件中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名為 lang 的所有屬性。

謂語（Predicates）

謂語用來查詢某個特定的節點或者包含某個指定的值的節點。

謂語被嵌在方括號中。

例項

在下面的表格中，我們列出了帶有謂語的一些路徑表示式，以及表示式的結果：

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

選取未知節點

XPath 萬用字元可用來選取未知的 XML 元素。

萬用字元	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何型別的節點。

例項

在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文件中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

選取若干路徑

通過在路徑表示式中使用“|”運算子，您可以選取若干個路徑。

例項

在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素。
//title \| //price	選取文件中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文件中所有的 price 元素。

XML 例項文件

我們將在下面的例子中使用此 XML 文件：

<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book>   <title>Harry Potter</title>   <price>29.99</price> </book> <book>   <title>Learning XML</title>   <price>39.95</price> </book> </bookstore>

XPath 軸

軸可定義相對於當前節點的節點集。

軸名稱	結果
ancestor	選取當前節點的所有先輩（父、祖父等）。
ancestor-or-self	選取當前節點的所有先輩（父、祖父等）以及當前節點本身。
attribute	選取當前節點的所有屬性。
child	選取當前節點的所有子元素。
descendant	選取當前節點的所有後代元素（子、孫等）。
descendant-or-self	選取當前節點的所有後代元素（子、孫等）以及當前節點本身。
following	選取文件中當前節點的結束標籤之後的所有節點。
namespace	選取當前節點的所有名稱空間節點。
parent	選取當前節點的父節點。
preceding	選取文件中當前節點的開始標籤之前的所有節點。
preceding-sibling	選取當前節點之前的所有同級節點。
self	選取當前節點。

位置路徑表示式

位置路徑可以是絕對的，也可以是相對的。

絕對路徑起始於正斜槓( / )，而相對路徑不會這樣。在兩種情況中，位置路徑均包括一個或多個步，每個步均被斜槓分割：

絕對位置路徑：

/step/step/...

相對位置路徑：

step/step/...

每個步均根據當前節點集之中的節點來進行計算。

步（step）包括：

軸（axis）: 定義所選節點與當前節點之間的樹關係
節點測試（node-test）: 識別某個軸內部的節點
零個或者更多謂語（predicate）: 更深入地提煉所選的節點集

步的語法：

軸名稱::節點測試[謂語]

例項

例子	結果
child::book	選取所有屬於當前節點的子元素的 book 節點。
attribute::lang	選取當前節點的 lang 屬性。
child::*	選取當前節點的所有子元素。
attribute::*	選取當前節點的所有屬性。
child::text()	選取當前節點的所有文字子節點。
child::node()	選取當前節點的所有子節點。
descendant::book	選取當前節點的所有 book 後代。
ancestor::book	選擇當前節點的所有 book 先輩。
ancestor-or-self::book	選取當前節點的所有 book 先輩以及當前節點（如果此節點是 book 節點）
child::*/child::price	選取當前節點的所有 price 孫節點。

XPath 表示式可返回節點集、字串、邏輯值以及數字。

XPath 運算子

下面列出了可用在 XPath 表示式中的運算子：

運算子	描述	例項	返回值
\|	計算兩個節點集	//book \| //cd	返回所有擁有 book 和 cd 元素的節點集
+	加法	6 + 4	10
-	減法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等於	price=9.80	如果 price 是 9.80，則返回 true。如果 price 是 9.90，則返回 false。
!=	不等於	price!=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
<	小於	price<9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
<=	小於或等於	price<=9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
>	大於	price>9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
>=	大於或等於	price>=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.70，則返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，則返回 true。如果 price 是 9.50，則返回 false。
and	與	price>9.00 and price<9.90	如果 price 是 9.80，則返回 true。如果 price 是 8.50，則返回 false。
mod	計算除法的餘數	5 mod 2	1

About Me

........................................................................................................................

● 本文作者：小麥苗，部分內容整理自網路，若有侵權請聯絡小麥苗刪除

● 本文在itpub（

http://blog.itpub.net/26736162

）、部落格園（

http://www.cnblogs.com/lhrbest

）和個人weixin公眾號（

xiaomaimiaolhr

）上有同步更新

● 本文itpub地址：

http://blog.itpub.net/26736162

● 本文部落格園地址：

http://www.cnblogs.com/lhrbest

● 本文pdf版、個人簡介及小麥苗雲盤地址：

http://blog.itpub.net/26736162/viewspace-1624453/

● 資料庫筆試面試題庫及解答：

http://blog.itpub.net/26736162/viewspace-2134706/

● DBA寶典今日頭條號地址：

http://www.toutiao.com/c/user/6401772890/#mid=1564638659405826

........................................................................................................................

● QQ群號：

230161599

（滿）

、618766405

● weixin群：可加我weixin，我拉大家進群，非誠勿擾

● 聯絡我請加QQ好友

（

646634621

）

，註明新增緣由

● 於 2019-05-01 06:00 ~ 2019-05-30 24:00 在魔都完成

● 最新修改時間：2019-05-01 06:00 ~ 2019-05-30 24:00

● 文章內容來源於小麥苗的學習筆記，部分整理自網路，若有侵權或不當之處還請諒解

● 版權所有，歡迎分享本文，轉載請保留出處

........................................................................................................................

● 

小麥苗的微店

：

https://weidian.com/s/793741433?wfr=c&ifr=shopdetail

● 

小麥苗出版的資料庫類叢書

：

http://blog.itpub.net/26736162/viewspace-2142121/

● 

小麥苗OCP、OCM、高可用網路班

：

http://blog.itpub.net/26736162/viewspace-2148098/

● 

小麥苗騰訊課堂主頁

：

https://lhr.ke.qq.com/

........................................................................................................................

使用

weixin客戶端

掃描下面的二維碼來關注小麥苗的weixin公眾號（

xiaomaimiaolhr

）及QQ群（DBA寶典）、新增小麥苗weixin，

學習最實用的資料庫技術。 

........................................................................................................................

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/26736162/viewspace-2644959/，如需轉載，請註明出處，否則將追究法律責任。

python爬蟲：XPath語法和使用示例
2020-08-09
Python爬蟲
Python爬蟲基礎講解（七）：xpath的語法
2021-05-15
Python爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
爬蟲之xpath的使用
2024-04-02
爬蟲
爬蟲 – xpath 匹配
2018-12-20
爬蟲
爬蟲之CSS語法學習
2024-10-23
爬蟲CSS
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
爬蟲之xpath精準定位--位置定位
2024-06-03
爬蟲
selenium之xpath語法總結
2020-10-09
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
XPath 語法概述
2022-08-14
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
python爬蟲之JS逆向
2022-06-11
Python爬蟲JS
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
Python爬蟲之BeautifulSoup庫
2020-12-14
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
Xpath語法格式整理
2018-08-10
Xpath解析及其語法
2024-12-04
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
python爬蟲之js逆向（三）
2020-01-06
Python爬蟲JS
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
Python爬蟲基礎之selenium
2022-07-13
Python爬蟲
Python爬蟲實戰之bilibili
2021-04-04
Python爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
python爬蟲基礎之urllib
2020-11-26
Python爬蟲
基於asyncio、aiohttp、xpath的非同步爬蟲
2019-02-16
AIHTTP非同步爬蟲
Datawhale-爬蟲-Task4(學習xpath）
2019-03-04
爬蟲

Python爬蟲之XPath語法

什麼是 XPath?

XPath 路徑表示式

XPath 標準函式

XPath 術語

節點（Node）

基本值（或稱原子值，Atomic value）

專案（Item）

節點關係

父（Parent）

子（Children）

同胞（Sibling）

先輩（Ancestor）

後代（Descendant）

節點關係

XML 例項文件

選取節點

下面列出了最有用的路徑表示式：

例項

謂語（Predicates）

例項

選取未知節點

例項

選取若干路徑

例項

XML 例項文件

XPath 軸

位置路徑表示式

絕對位置路徑：

相對位置路徑：

步（step）包括：

步的語法：

例項

XPath 運算子

相關文章