Python爬蟲教程-21-xpath 簡介

肖朋偉發表於2018-09-06

本篇簡單介紹 xpath 在python爬蟲方面的使用,想要具體學習 xpath 可以到 w3school 檢視 xpath 文件
xpath文件:http://www.w3school.com.cn/xpath/index.asp

Python爬蟲教程-21-xpath

什麼是 XPath?

  • XPath 使用路徑表示式在 XML 文件中進行導航
  • XPath 包含一個標準函式庫
  • XPath 是 XSLT 中的主要元素
  • XPath 是一個 W3C 標準
  • 用途:它是一種用來確定XML文件中某部分位置的語言
  • XPath開發工具:
    • 開源的XPath表示式工具:XMLQuire
    • Chrome 外掛:XPath Helper
    • FIrefox外掛:XPath CHecker
  • XPath基於XML的樹狀結構,提供在資料結構樹中找尋節點的能力。起初XPath的提出的初衷是將其作為一個通用的、介於XPointer與XSL間的語法模型。但是XPath很快的被開發者採用來當作小型查詢語言
  • 在 XPath 中,有七種型別的節點:元素、屬性、文字、名稱空間、處理指令、註釋以及文件節點(或稱為根節點

xml案例py24.xml檔案:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py24.xml

<?xml version="1.0" encoding="UTF-8" ?>

<booksore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <auther>Gidada De</auther>
        <year>2018</year>
        <price>23</price>
    </book>

    <book category="education">
        <title lang="en">Python is Python</title>
        <auther>Food War</auther>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang="en">Running</title>
        <auther>Klaus Kuka</auther>
        <year>2010</year>
        <price>43</price>
    </book>

</booksore>

XPath 路徑表示式

  • XPath 使用路徑表示式來選取 XML 文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的表示式非常相似。
  • 常用路徑表示式:
    這裡寫圖片描述
  • 例項:
    這裡寫圖片描述

謂語(Predicates)

  • 謂語用來查詢某個特定的節點或者包含某個指定的值的節點
  • 謂語被嵌在方括號中
  • 例項:

在下面的表格中,我們列出了帶有謂語的一些路徑表示式,以及表示式的結果:
這裡寫圖片描述

選取未知節點

  • XPath 萬用字元可用來選取未知的 XML 元素
    這裡寫圖片描述
  • 例項:
    這裡寫圖片描述

選取若干路徑

  • 通過在路徑表示式中使用“|”運算子,您可以選取若干個路徑
  • 例項:
    這裡寫圖片描述

更多文章連結:Python 爬蟲隨筆


相關文章