Python爬蟲之資料解析（XPath）

weixin_33782386發表於2018-12-18

原文網址 : https://blog.csdn.net/weixin_33782386/article/details/87483575

XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷，而將 HTML文件轉換成 XML文件後，就可以用 XPath 查詢 HTML 節點或元素。

XML 文件的特點：
XML 文件中的每個成分都是一個節點。整個文件是一個根節點；每個 XML 標籤是一個元素節點；包含在 XML 元素中的文字是文字節點；每一個 XML 屬性是一個屬性節點；註釋則屬於註釋節點。
其中，元素節點可以包含任意的元素節點、文字節點或屬性節點，而文字節點或屬性節點則不能包含節點。

XPath語法的特點：
XPath 使用路徑表示式在 XML 文件中進行導航
XPath 包含一個標準函式庫
XPath 表示式可返回節點集、字串、邏輯值以及數字。

常用的XPath 開發工具：
1.開源的XPath表示式編輯工具:XMLQuire（僅XML格式檔案可用）。
2.Firefox外掛 Try XPath。
3.Chrome外掛 XPath Helper。推薦！可以直接在網頁上使用xpath定位元素，非常方便。（安裝詳情見參考文獻2）

一、XPath語法介紹

1. 選取節點

下表列出了常用的路徑表示式：

表示式	描述
nodename	選取此節點的所有子節點
/	如果在路徑最前面代表從根節點選取，否則表示選擇某節點的子節點
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置
.	表示當前節點
..	表示當前節點的父節點
@href	節點href屬性的值（/@href：當前節點href屬性的值；//@href：當前節點和子孫節點href屬性的值）
text()	節點的文字內容（/text()：當前節點的文字內容；//text()：當前節點和子孫節點的文字內容）

2.謂語

謂語：用來查詢某個特定的節點或者包含某個指定屬性值的節點，被嵌在方括號中。

/bookstore/book[1]：選取屬於 bookstore 子元素的第一個 book 元素。注意位置順序是從1開始的，和python不一樣！
/bookstore/book[last()]：選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]：選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]：選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]：選取擁有 lang 屬性的 title 元素。
//title[@lang='eng']：選取 lang屬性值為'eng'的 title 元素。
/bookstore/book[@price>35.00]：選取 bookstore子元素中滿足條件的book 元素，條件：price屬性的值須大於 35.00。

3.XPath的運算子

加法：+
減法：-
乘法：*
除法：div
=：等於
!=：不等於
<：小於
<=：小於或等於
>：大於
>：大於或等於
or：或
and：與
mod：計算除法的餘數

4.XPath的軸

軸可定義相對於當前節點的節點集。
語法：軸名稱::節點[謂語]

常用的軸：

ancestor：選取當前節點的所有先輩節點（父、祖父等）。
ancestor-or-self：選取當前節點的所有先輩節點（父、祖父等）以及當前節點本身。
attribute：選取當前節點的所有屬性。
self：選取當前節點。
child：選取當前節點的所有子節點。
parent：選取當前節點的父節點。
descendant：選取當前節點的所有後代節點（子、孫等）。
descendant-or-self：選取當前節點的所有後代節點（子、孫等）以及當前節點本身。

示例：

//li[@data="one"]/ancestor::div：選取屬性data="one"的li節點的所有div祖先節點。
//li[@data="one"]/ancestor::*：選取屬性data="one"的li標籤的所有祖先節點。
//div[@id="testid"]/attribute::*：選取id="testid"的div節點的所有屬性值。
//div[@id]/self::div[@data-h]/attribute::*：選取含id屬性和data-h屬性的div標籤的所有屬性值
//div[@id="testid"]/child::*：選取id="testid"的div節點的所有子節點。
//li[@data="one"]/parent::ol/li[last()]/text()：選取屬性data="one"的li節點的父節點ol，其最後一個li子節點的文字值。
注意：由於每個元素節點只有唯一的一個父節點，所以“parent::父節點”等價於“parent::*” 。

5.XPath常用函式

contains ()函式：
//div[ contains(@class, 'in') ]：選擇class屬性值中包含有’in’字串的div節點。
text()函式：節點的文字值
//a[text()='baidu']：選取文字值等於'baidu'的a節點。
//a/text()：獲取a節點文字內容。
last()函式：
/bookstore/book[last()]：選取屬於 bookstore 子節點的最後一個 book 節點。
position()函式：返回節點的索引位置(從1開始)
/bookstore/book[position()<=3]：選取屬於 bookstore 子節點的前三個 book 節點。
starts-with()函式：
//div[starts-with(@class,'in')]：選擇class屬性值以字串’in’開頭的div節點。
ends-with()函式：
//div[ends-with(@class,'in')]：選擇class屬性值以字串’in’結尾的div節點。
not()函式：表示否定
//input[@name=‘identity’ and not( contains(@class,‘a’) )]：
選擇屬性name=‘identity’ 並且 class屬性值中不包含字元’a’的input節點。
not()函式通常與返回值為true or false的函式組合起來用，比如contains(),starts-with()等。但有一種特別情況需注意一下：//input[@id]：匹配出含有id屬性的input節點；//input[not(@id)]：匹配出不含有id屬性的input節點。

6.其他

1.萬用字元
使用萬用字元“*”可用來選取未知的 XML 元素。
*：匹配任何元素節點。
@*：匹配任何屬性節點。
node()：匹配任意型別的節點（元素、屬性、文字、註釋以及根節點）。

2.選取多條路徑
通過在路徑表示式中使用“|”運算子，可以選取多條路徑。
//book/title | //book/price：選取 book 元素的所有 title 和 price 元素。
//title | //price：選取文件中的所有 title 和 price 元素。

二、xpath在python中的具體運用

lxml庫是一個XML、HTML的解析器，主要用於解析和提取XML、HTML資料。lxml庫先將HTML文件解析，然後就可以使用XPath 搜尋或遍歷HTML文件中的節點。

使用lxml解析HTML資料的兩種方式：

1.解析HTML字串：

from lxml import etree

# HTML字串
text = '''
<bookstore>
  <book>
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <name>傑克羅琳</name>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>
'''

# 使用HTML()方法解析字串
# HTML()預設使用的就是HTML解析器，如果遇到不規範的HTML程式碼，會自動補全。
html_element = etree.HTML(text)

# 解析後就可以呼叫xpath方法了
name = html_element.xpath('//book/name/text()')
print(name)


# 返回值：
# ['傑克羅琳']

2.直接解析HTML檔案：

from lxml import etree

# 建立HTML解析器，指定解析器使用的編碼格式(需要和檔案編碼格式一致)
parser = etree.HTMLParser(encoding='utf-8')

# parse()預設的是XML解析器，在解析HTML程式碼時，如果HTML程式碼不規範,則會報錯！
# 因此需要指定解析器為HTML解析器，這樣不規範的HTML程式碼，會自動補全！
html_element = etree.parse('./test.html', parser=parser)

#解析後就可以呼叫xpath方法了
name = html_element.xpath('//book/name/text()')
print(name)


# 返回值：
# ['傑克羅琳']

注意：
1.xpath返回的永遠是列表，即使沒有匹配到任何元素也返回的是空列表。
2.根節點和任意元素節點都可以使用xpath方法去搜尋、遍歷其子節點。

# tostring()方法可以將節點物件轉換成位元組，解碼後就可以檢視節點內容
author_ele = html_element.xpath('//book/author')[0]
result = etree.tostring(author_ele, encoding='utf-8').decode('utf-8')
print(result)


# 返回值：
# <author>J K. Rowling</author>&#13;

參考文獻：

Python爬蟲之XPath語法
2019-05-20
Python爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
爬蟲之xpath的使用
2024-04-02
爬蟲
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
爬蟲 – xpath 匹配
2018-12-20
爬蟲
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
python爬蟲：XPath語法和使用示例
2020-08-09
Python爬蟲
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
爬蟲之xpath精準定位--位置定位
2024-06-03
爬蟲
Python爬蟲之使用MongoDB儲存資料
2019-02-16
Python爬蟲MongoDB
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
Python爬蟲基礎講解（七）：xpath的語法
2021-05-15
Python爬蟲
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
Python 爬蟲實戰之爬拼多多商品並做資料分析
2023-10-17
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
Python爬蟲之小說資訊爬取與資料視覺化分析
2021-01-09
Python爬蟲視覺化
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
【Python3網路爬蟲開發實戰】4-解析庫的使用-1 使用XPath
2019-02-26
Python爬蟲
python爬蟲之JS逆向
2022-06-11
Python爬蟲JS
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
Python爬蟲之BeautifulSoup庫
2020-12-14
Python爬蟲
用xpath、bs4、re爬取B站python資料
2018-08-07
Python
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲