學會XPath，輕鬆抓取網頁資料

GoodTimeGGB發表於2023-11-30

一、定義

XPath（XML Path Language）是一種用於在 XML 文件中定位和選擇節點的語言。XPath的選擇功能非常強大，可以透過簡單的路徑選擇語法，選取文件中的任意節點或節點集。學會XPath，可以輕鬆抓取網頁資料，提高資料獲取效率。

二、XPath基礎語法

節點（Nodes）： XML 文件的基本構建塊，可以是元素、屬性、文字等。
路徑表示式：用於定位 XML 文件中的節點。路徑表示式由一系列步驟組成，每個步驟用斜槓 / 分隔。

XPath的節點是指在XML或HTML文件中被選擇的元素或屬性。XPath中有7種型別的節點，包括元素節點、屬性節點、文字節點、名稱空間節點、處理指令節點、註釋節點以及文件節點（或稱為根節點）。

- 元素節點：表示XML或HTML文件中的元素。例如，在HTML文件中，<body>、<div>、<p>等都是元素節點。在XPath中，可以使用元素名稱來選擇元素節點，例如：//div表示選擇所有的<div>元素。

- 屬性節點：表示XML或HTML文件中元素的屬性。例如，在HTML文件中，元素的class、id、src等屬性都是屬性節點。在XPath中，可以使用@符號來選擇屬性節點，例如：//img/@src表示選擇所有<img>元素的src屬性。

- 文字節點：表示XML或HTML文件中的文字內容。例如，在HTML文件中，<p>標籤中的文字內容就是文字節點。在XPath中，可以使用text()函式來選擇文字節點，例如：//p/text()表示選擇所有<p>元素中的文字內容。

- 名稱空間節點：表示XML文件中的名稱空間。名稱空間是一種避免元素命名衝突的方法。在XPath中，可以使用namespace軸來選擇名稱空間節點，例如：//namespace::*表示選擇所有的名稱空間節點。

- 處理指令節點：表示XML文件中的處理指令。處理指令是一種用來給處理器傳遞指令的機制。在XPath中，可以使用processing-instruction()函式來選擇處理指令節點，例如：//processing-instruction('xml-stylesheet')表示選擇所有的xml-stylesheet處理指令節點。

- 註釋節點：表示XML或HTML文件中的註釋。註釋是一種用來新增說明和備註的機制。在XPath中，可以使用comment()函式來選擇註釋節點，例如：//comment()表示選擇所有的註釋節點。

- 文件節點：表示整個XML或HTML文件。文件節點也被稱為根節點。在XPath中，可以使用/符號來選擇文件節點，例如：/表示選擇整個文件節點。

本文使用XML示例如下

<bookstore>
    <book category='fiction'>
        <title>活著</title>
        <author>餘華</author>
        <press>作家出版社</press>
        <date>2012-8-1</date>
        <page>191</page>
        <price>20.00</price>
        <staple>平裝</staple>
        <series>餘華作品（2012版）</series>
        <isbn>9787506365437</isbn>
    </book>
    <book category='non-fiction'>
        <title>撒哈拉的故事</title>
        <author>三毛</author>
        <press>哈爾濱出版社</press>
        <date>2003-8</date>
        <page>217</page>
        <price>15.80</price>
        <staple>平裝</staple>
        <series>三毛全集（華文天下2003版）</series>
        <isbn>9787806398791</isbn>
    </book>
    <book category='non-fiction'>
        <title>明朝那些事兒（1-9）</title>
        <author>當年明月</author>
        <press>中國海關出版社</press>
        <date>2009-4</date>
        <page>2682</page>
        <price>358.20</price>
        <staple>精裝16開</staple>
        <series>明朝那些事兒（典藏本）</series>
        <isbn>9787801656087</isbn>
    </book>
</bookstore>

除了這些基本節點型別之外，XPath還支援使用萬用字元：

萬用字元	描述	示例
`*`	匹配任何元素節點	`//book/*` 選取`<book>`元素下的任意子元素節點
`@*`	匹配任何屬性節點	`//book/@*` 選取`<book>`元素上的任意屬性節點，如`<book category='fiction'>`中的`category`屬性
`node()`	匹配任何型別的節點	`//book/node()` 選取`<book>`元素下的所有型別的子節點，包括元素節點、文字節點、註釋節點等

以及使用謂詞來進一步篩選選擇的節點集。謂詞是一種用來對節點進行過濾和排序的機制，可以包含比較運算子、邏輯運算子和函式等，部分示例如下：

謂語	描述	示例
`[position()=n]`	選取位於指定位置的節點。`n` 是節點的位置（從 1 開始計數）	`//book[position()=1]` 選取第一個`<book>`元素
`[last()=n]`	選取位於指定位置的最後一個節點。`n` 是節點的位置（從 1 開始計數）	`//book[last()=1]` 選取最後一個`<book>`元素
`[contains(string, substring)]`	選取包含指定子字串的節點。`string` 是節點的文字內容，`substring` 是要查詢的子字串	`//book[contains(title, 'XML')]` 選取標題中包含子字串`'XML'`的`<book>`元素
`[starts-with(string, prefix)]`	選取以指定字首開始的節點。`string` 是節點的文字內容，`prefix` 是要匹配的字首字串	`//book[starts-with(title, 'The')]` 選取標題以`'The'`開始的`<book>`元素
`[text()=string]`	選取文字內容完全匹配的節點。`string` 是要匹配的文字內容	`//book[text()='Book Title']` 選取文字內容為`'Book Title'`的`<book>`元素
`[@category='non-fiction']`	選取具有指定屬性值的節點。`category` 是屬性名稱，`non-fiction` 是要匹配的值	`//book[@category='non-fiction']` 選取具有屬性`category`值為`'non-fiction'`的`<book>`元素

XPath使用路徑表示式來選取XML或HTML文件中的節點或節點集。下面是一些常用的路徑表示式：

表示式	描述	示例
nodename	選取此節點的所有子節點	`//bookstore/book` 選取`<bookstore>`元素下所有`<book>`子元素
/	從根節點選取直接子節點	`/bookstore` 從根節點選取`<bookstore>`元素
//	從當前節點選取子孫節點	`//book` 選取所有`<book>`元素，無論它們在文件中的位置
.	選取當前節點	`./title` 選取當前節點的`<title>`子元素
..	選取當前節點的父節點	`../price` 選取當前節點的父節點的`<price>`子元素
@	選取屬性	`//book/@id` 選取所有`<book>`元素的`id`屬性

三、XPath使用示例

選擇所有名稱為title的節點：//title
選擇所有名稱為title，同時屬性lang的值為eng的節點：//title[@lang='eng']
選擇id為bookstore的節點的所有子節點：/bookstore/*
選擇id為bookstore的節點的所有子孫節點：/bookstore//*
選擇id為bookstore的節點的直接子節點中的第一個節點：/bookstore/*[1]
選擇id為bookstore的節點的屬性為category的值：/bookstore/@category

四、XPath的高階用法

XPath語言提供了一些高階的功能，包括：

軸（Axes）：XPath提供了幾種軸，用於在文件中導航。包括child（子元素）、ancestor（祖先元素）、descendant（後代元素）和following-sibling（後續同級元素）等。

函式：XPath提供了一些內建的函式，如count(),concat(),string(),local-name(),contains(),not(),string-length()等，可以用於處理和操作節點和屬性3。

條件語句：XPath提供了條件語句（如if-else語句），使得我們可以根據某些條件來選擇性地提取元素或屬性3。

五、.NET中使用

// XML 文件內容
string xmlContent = @"
            <bookstore>
                <book category='fiction'>
                    <title>活著</title>
                    <author>餘華</author>
                    <press>作家出版社</press>
                    <date>2012-8-1</date>
                    <page>191</page>
                    <price>20.00</price>
                    <staple>平裝</staple>
                    <series>餘華作品（2012版）</series>
                    <isbn>9787506365437</isbn>
                </book>
                <book category='non-fiction'>
                    <title>撒哈拉的故事</title>
                    <author>三毛</author>
                    <press>哈爾濱出版社</press>
                    <date>2003-8</date>
                    <page>217</page>
                    <price>15.80</price>
                    <staple>平裝</staple>
                    <series>三毛全集（華文天下2003版）</series>
                    <isbn>9787806398791</isbn>
                </book>
                <book category='non-fiction'>
                    <title>明朝那些事兒（1-9）</title>
                    <author>當年明月</author>
                    <press>中國海關出版社</press>
                    <date>2009-4</date>
                    <page>2682</page>
                    <price>358.20</price>
                    <staple>精裝16開</staple>
                    <series>明朝那些事兒（典藏本）</series>
                    <isbn>9787801656087</isbn>
                </book>
            </bookstore>";

// 建立 XPath 文件
using (XmlReader reader = XmlReader.Create(new StringReader(xmlContent)))
{
    XPathDocument xpathDoc = new XPathDocument(reader);

    // 建立 XPath 導航器
    XPathNavigator navigator = xpathDoc.CreateNavigator();

    // 使用 XPath 查詢（選擇所有位於bookstore下、其category屬性值為'fiction'的book元素中的title元素）
    string xpathExpression = "//bookstore/book[@category='fiction']/title";
    XPathNodeIterator nodes = navigator.Select(xpathExpression);

    // 檢查是否有匹配的節點
    if (nodes != null)
    {
        // 遍歷結果
        while (nodes.MoveNext())
        {
            // 檢查當前節點是否為空
            if (nodes.Current != null)
            {
                Console.WriteLine(nodes.Current.Value);
            }
        }
    }
}

執行結果

六、XPath在自動化測試中的應用

XPath最常用的場景之一就是在自動化測試中用來選擇HTML DOM節點。例如，在Selenium自動化測試中，可以使用XPath作為選擇web元素的主要方法之一。透過XPath選擇器，可以方便地定位頁面中的任意元素，進行自動化測試操作。

七、XPath的優勢與不足

XPath的優勢在於其強大的選擇功能，可以透過簡單的路徑選擇語法，選取文件中的任意節點或節點集。此外，XPath還支援超過100個內建函式，可用於字串處理、數值計算、日期和時間比較等等。這些函式可以大大提高資料處理的效率。

然而，XPath也有其不足之處。首先，XPath對於複雜的文件結構可能會變得非常複雜，導致選擇語句難以理解和維護。其次，XPath在處理大量資料時可能會出現效能問題，因為它需要遍歷整個文件來查詢匹配的節點。因此，在使用XPath時需要注意最佳化查詢語句，提高查詢效率。

八、總結

學會XPath，可以輕鬆抓取網頁資料，提高資料獲取效率。本文介紹了XPath的定義、基礎語法、使用示例、高階用法、.NET中使用舉例以及在自動化測試中的應用場景，同時也討論了XPath的優勢與不足。希望本文能夠幫助讀者更好地理解和掌握XPath的使用方法。

希望以上內容能夠幫助你理解和學習XPath。歡迎點贊、關注、收藏，如果你還有其他問題，歡迎評論區交流。

抓取金投網文字資料（xpath練習）
2024-08-07
網頁資料抓取之噹噹網
2020-12-21
網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
網頁抓取如何幫助資料分析？
2022-02-11
網頁
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
如何抓取網頁資訊？
2022-06-02
網頁
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
如何輕鬆學習Python資料分析？
2019-03-11
Python
Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
(一)如何使用 Parsel 和 XPath 進行網頁資料提取
2024-08-03
網頁
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
靜態網站如何修改，輕鬆更新網頁內容
2024-11-30
網站網頁
輕鬆篡改WebSocket資料包
2018-07-15
Web
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
輕鬆學會原始碼編譯Vim 8.0
2023-05-11
原始碼編譯
php網站修改主頁顏色，輕鬆調整網站主頁配色方案
2024-12-08
PHP網站
微信如何在群裡進行資料統計，教你傳送表單網頁輕鬆統計資料
2021-11-23
網頁
3天學會網頁爬蟲進行資料分析
2022-01-07
網頁爬蟲
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
輕鬆學會 React 鉤子：以 useEffect() 為例
2020-09-15
React
看動畫輕鬆學會 Raft 演算法
2021-03-02
動畫Raft演算法
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
anime.js 網頁動畫庫，輕鬆實現網頁數字滾動效果
2024-09-01
JS網頁動畫
面對眾多資料難以下手？資料預處理讓你輕輕鬆鬆“超車”
2018-06-27
輕鬆實現織夢網站資料遷移到新站點
2022-01-23
網站
Downie 4影片下載專家：輕鬆抓取、儲存影片
2023-10-30
php網站預設起始頁頁面修改，如何輕鬆更新PHP網站的預設起始頁
2024-12-08
PHP網站
iOS 輕鬆使用 App 資料統計
2019-03-03
iOSAPP
零基礎也能輕鬆學會IT開發
2021-07-22
批量抓取網頁pdf檔案
2019-02-16
網頁
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
使用代理抓取網頁的原因
2021-09-11
網頁
QueryList免費線上網頁採集資料抓取工具-toolfk.com
2018-11-04
網頁
2018網頁UI設計：輕鬆搞定視覺層次感
2019-03-04
網頁UI視覺
CSS 變數讓你輕鬆製作響應式網頁
2018-03-07
CSS變數網頁