Python爬蟲：Xpath語法筆記

發表於2016-04-02

一、選取節點
常用的路勁表示式：

表示式	描述	例項
nodename	選取nodename節點的所有子節點	xpath(‘//div’)	選取了div節點的所有子節點
/	從根節點選取	xpath(‘/div’)	從根節點上選取div節點
//	選取所有的當前節點，不考慮他們的位置	xpath(‘//div’)	選取所有的div節點
.	選取當前節點	xpath(‘./div’)	選取當前節點下的div節點
..	選取當前節點的父節點	xpath(‘..’)	回到上一個節點
@	選取屬性	xpath（’//@calss’）	選取所有的class屬性

二、謂語

謂語被嵌在方括號內，用來查詢某個特定的節點或包含某個制定的值的節點

例項：

表示式	結果
xpath(‘/body/div[1]’)	選取body下的第一個div節點
xpath(‘/body/div[last()]’)	選取body下最後一個div節點
xpath(‘/body/div[last()-1]’)	選取body下倒數第二個div節點
xpath(‘/body/div[positon()<3]’)	選取body下前兩個div節點
xpath(‘/body/div[@class]’)	選取body下帶有class屬性的div節點
xpath(‘/body/div[@class=”main”]’)	選取body下class屬性為main的div節點
xpath(‘/body/div[price>35.00]’)	選取body下price元素值大於35的div節點

三、萬用字元

Xpath通過萬用字元來選取未知的XML元素

表示式	結果
xpath（’/div/*’）	選取div下的所有子節點
xpath(‘/div[@*]’)	選取所有帶屬性的div節點

四、取多個路徑

使用“|”運算子可以選取多個路徑

表示式	結果
xpath(‘//div\|//table’)	選取所有的div和table節點

五、Xpath軸

軸可以定義相對於當前節點的節點集

軸名稱	表示式	描述
ancestor	xpath(‘./ancestor::*’)	選取當前節點的所有先輩節點（父、祖父）
ancestor-or-self	xpath(‘./ancestor-or-self::*’)	選取當前節點的所有先輩節點以及節點本身
attribute	xpath(‘./attribute::*’)	選取當前節點的所有屬性
child	xpath(‘./child::*’)	返回當前節點的所有子節點
descendant	xpath(‘./descendant::*’)	返回當前節點的所有後代節點（子節點、孫節點）
following	xpath(‘./following::*’)	選取文件中當前節點結束標籤後的所有節點
following-sibing	xpath(‘./following-sibing::*’)	選取當前節點之後的兄弟節點
parent	xpath(‘./parent::*’)	選取當前節點的父節點
preceding	xpath(‘./preceding::*’)	選取文件中當前節點開始標籤前的所有節點

preceding-sibling	xpath(‘./preceding-sibling::*’)	選取當前節點之前的兄弟節點
self	xpath(‘./self::*’)	選取當前節點

六、功能函式

使用功能函式能夠更好的進行模糊搜尋

函式	用法	解釋
starts-with	xpath(‘//div[starts-with(@id,”ma”)]‘)	選取id值以ma開頭的div節點
contains	xpath(‘//div[contains(@id,”ma”)]‘)	選取id值包含ma的div節點
and	xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)	選取id值包含ma和in的div節點
text()	xpath(‘//div[contains(text(),”ma”)]‘)	選取節點文字包含ma的div節點

scrapy xpath文件：http://doc.scrapy.org/en/0.14/topics/selectors.html

Python爬蟲之XPath語法
2019-05-20
Python爬蟲
python爬蟲：XPath語法和使用示例
2020-08-09
Python爬蟲
Python爬蟲基礎講解（七）：xpath的語法
2021-05-15
Python爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
爬蟲 – xpath 匹配
2018-12-20
爬蟲
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
爬蟲之xpath的使用
2024-04-02
爬蟲
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
爬蟲筆記（一）
2019-03-27
爬蟲筆記
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
XPath 語法概述
2022-08-14
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
爬蟲之CSS語法學習
2024-10-23
爬蟲CSS
python爬蟲日記01
2021-05-11
Python爬蟲
Python學習筆記（語法篇）
2020-02-17
Python筆記
Python筆記_1語法總結
2021-10-15
Python筆記
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲學習筆記（三、儲存資料）
2020-10-03
Python爬蟲筆記
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
【Python學習筆記1】Python網路爬蟲初體驗
2018-10-28
Python筆記爬蟲
Xpath語法格式整理
2018-08-10
Xpath解析及其語法
2024-12-04

Python爬蟲：Xpath語法筆記

相關文章