Python 爬蟲網頁內容提取工具xpath(一)

王平發表於2018-12-06

原文網址 : https://www.yuanrenxue.com/crawler/extract-data-xpath.html

Python爬蟲網頁

上一節，我們詳述了lxml.html的各種操作，接下來我們熟練掌握一下XPath，就可以熟練的提取網頁內容了。

XPath 是什麼？

XPath的全稱是 XML Path Language，即XML 路徑語言，是一種在XML（HTML）文件中查詢資訊的語言。它有4點特性：

XPath 使用路徑表示式在 XML 文件中進行導航
XPath 包含一個標準函式庫
XPath 是 XSLT 中的主要元素
XPath 是一個 W3C 標準

xpath提取網頁內容

我們從網頁中提取資料，主要應用前兩點。

XPath 路徑表示式

使用XPath我們可以很容易定位到網頁中的節點，也就是找到我們關心的資料。這些路徑跟電腦目錄、網址的路徑很相似，通過/來表示路徑的深度。

XPath 標註函式庫

頭內建了100多個函式，當然我們提取資料用到的有限，也就不用記住全部100多個函式了。

Xpath 的節點（Node）

XPath中的核心就是節點（Node），定義了7種不同型別的節點：元素（Element）、屬性（Attribute）、文字（Text）、名稱空間（Namespace）、處理指令（processing-instruction）、註釋（Comment）和文件節點（Document nodes）
這些節點組成一棵節點樹，樹的根節點被稱為文件節點。
其中註釋就是html裡面的註釋：
而名稱空間、處理指令和網頁資料提取基本沒關係，這裡就不再詳述。

下面我們以一個簡單的html文件為例，來解釋不同的節點及其關係。

<html lang="en-US">
<body>
    <div>ABC</div>
    <ul id="menu">
        <li class="item">home</li>
        <li class="item">python</li>
    </ul>
</body>
</html>

這段html中的節點有：

文件節點： <html>
元素節點：<li class="item">python</li>
屬性節點： id="menu"

XPath 節點的關係

節點間的關係完全照搬人類傳宗接代的輩分關係，但只是直系關係，沒有叔叔、大伯之類的旁系關係。
還是以上面的html文件為例來說明節點關係：

父（Parent）

每個元素節點（Element）及其屬性都有一個父節點。
比如，body的父是html，而body是div、ul 的父親。

子（Children）

每個元素節點可以有零個、一個或多個子。
比如，body有兩個子：div，ul，而ul也有兩個子：兩個li。

同輩（Sibling）

同輩有相同的父輩節點。
比如，div和ul是同輩。

先輩（Ancestor）

某節點的父輩及其以上輩分的節點。
比如，li的父輩有：ul、div、body、html

後代（Descendant）

某節點的子及其子孫節點。
比如，body的後代有：div、ul、li。

XPath節點的選取

選取節點，也就是通過路徑表達來實現。這是我們在網頁提取資料時的關鍵，要熟練掌握。

下表是比較有用的路徑表示式：

表示式	說明
nodename	選取當前節點的名為nodename的所有子節點。
/	從根節點選取，在路徑中間時表示一級路徑
//	從當前節點開始選擇文件中的節點，可以是多級路徑
.	從當前節點開始選取
..	從父節點開始選取
@	按屬性選取

接下來通過具體的示例來加深對路徑表達的理解：

路徑表示式	解釋
/html/body/ul/li	從根節點開始依照路徑選取li元素。返回多個。
//ul/li[1]	還是選取li元素，但是路徑多級跳躍到ul/li。[1]表示只取第一個li。
//li[last()]	還是選取li，但路徑更跳躍。[last()]表示取最後一個li元素。
//li[@class]	選取根節點的名為li且有class屬性的所有後代。
//li[@class=”item”]	選擇根節點的名為li且class屬性為item的所有後代。
//body/*/li	選取body的名為li的孫子節點。`*`是萬用字元，表示任何節點。
//li[@*]	選取所有帶屬性的li元素。
//body/div `\|` //body/ul	選取body的所有div和ul元素。
body/div	相對路徑，選取當前節點的body元素的子元素div。絕對路徑以 / 開始。

XPath函式

Xpath的函式很多，涉及到錯誤、數值、字串、時間等等，然而我們從網頁中提取資料的時候只會用到很少的一部分。其中最重要的就是字串相關的函式，比如contains()函式。

contains(a, b)

如果字串a包含字串b，則返回true，否則返回false。
比如： contains(‘猿人學Python’, ‘Python’)，返回true
那麼它用在什麼時候呢？我們知道，一個html標籤的class是可以有多個屬性值的，比如：

<div class="post-item text-red text-center">
    ...
</div>

這段html中div有三個class值，第一個表面它是一條釋出的訊息，後面兩個是對格式做了更多的設定。如果我們想提取網頁中所有釋出的訊息，只需要匹配到post-item 即可，這時候就可以用上contains了：

doc.xpath('//div[contains(@class, "post-item")]')

跟contains()類似的字串匹配的函式還有：

starts-with(string1, string2) 判斷string1是否以string2開頭
ends-with(string1, string2) 判斷string1是否以string2結尾
matches(string, pattern) 通過正規表示式匹配

然而，在lxml的xpath中使用ends-with(), matches() 會報錯

In [232]: doc.xpath('//ul[ends-with(@id, "u")]')
---------------------------------------------------------------------------
XPathEvalError                            Traceback (most recent call last)
<ipython-input-232-79a4afc46a75> in <module>()
----> 1 doc.xpath('//ul[ends-with(@id, "u")]')

src/lxml/etree.pyx in lxml.etree._Element.xpath()

src/lxml/xpath.pxi in lxml.etree.XPathElementEvaluator.__call__()

src/lxml/xpath.pxi in lxml.etree._XPathEvaluatorBase._handle_result()

XPathEvalError: Unregistered function

lxml 竟然不支援ends-with(), matches()函式
到lxml官方網站去看看，原來它說了只支援 XPath 1.0：

lxml supports XPath 1.0, XSLT 1.0 and the EXSLT extensions through libxml2 and libxslt in a standards compliant way.

接著又在Wikipedia上找到Xpath 2.0 和 1.0 的差異對比，果然ends-with(), matches() 只屬於2.0。下圖中，粗體部分是1.0包含的，其它是2.0也有的：

XPath 2.0 和 1.0 的差異

好了，Xpath在網頁內容提取中要用到的部分我們已經學完了。下一節，我們將以例項講解xpath具體提取資料的過程。

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
2020-09-14
Python爬蟲網頁
提取動態html網頁內容
2018-09-06
HTML網頁
Python爬蟲之XPath語法
2019-05-20
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬取網頁中JavaScript動態新增的內容（一）
2018-09-28
Python網頁JavaScript
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
爬蟲 – xpath 匹配
2018-12-20
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
ScienceDirect內容爬蟲
2021-07-21
爬蟲
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
python爬蟲：XPath語法和使用示例
2020-08-09
Python爬蟲
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
(一)如何使用 Parsel 和 XPath 進行網頁資料提取
2024-08-03
網頁
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
《網頁爬蟲》
2018-11-26
網頁爬蟲
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Python提取文字指定內容
2024-03-26
Python
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
怎麼利用Python網路爬蟲來提取資訊
2020-03-20
Python爬蟲
Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
爬蟲之xpath的使用
2024-04-02
爬蟲
大規模非同步新聞爬蟲：網頁正文的提取
2018-12-03
非同步爬蟲網頁
python爬蟲之快速對js內容進行破解
2019-07-08
Python爬蟲JS