爬蟲 – xpath 匹配

程式灬波發表於2018-12-20

原文網址 : https://flycode.co/archives/232728

例題


import lxml.html

test_data = """
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html" id="places_neighbours__row">9,596,960first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html" id="places_neighbours__row">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a></li>
                 <li class="good-0"><a href="link5.html">fifth item</a></li>
             </ul>
             <book>
                    <title lang="aaengbb">111111</title>
                    <price id="places_neighbours__row">29.99</price>
            </book>
            <book>
                <title lang="zh">222222</title>
                <price>39.95</price>
            </book>
            <book>
                <title>33333</title>
                <price>40</price>
            </book>
         </div>
        <a>
            <book>
                <title>123</title>
            </book>

        </a>
        
        """

"""
/ 從根標籤開始 必須具有嚴格的父子關係
// 從當前標籤  後續節點含有即可選出
* 萬用字元，選擇所有
//div/book[1]/title 選擇div下第一個book標籤的title元素
//div/book/title[@lang="zh"]選擇title屬性含有lang且內容是zh的title元素
//div/book/title //book/title //title //div//title 具有相同的結果，因為使用相對路徑最終都指向title
//book/title/@* 將title所有的屬性值選擇出來
//book/title/text() 將title的內容選擇出來，使用內建text()函式
//a[@href="link1.html" and @id="places_neighbours__row"] 
//a[@href="link1.html" or @id="places_neighbours__row"]
//div/book[last()]/title/text() 將最後一個book元素選出
//div/book[price > 39]/title 將book子標籤price數值大於39的選擇出來
//li[starts-with(@class,`item`)] 將class屬性字首是item的li標籤選出
//title[contains(@lang,`eng`)] 將title屬性lang含有eng關鍵字的標籤選出
"""


html = lxml.html.fromstring(test_data)

#html_data = html.xpath(`//div/book/title/text()`)
#html_data = html.xpath(`//div/book[1]/title/text()`)
#html_data = html.xpath(`//div/book/title[@lang="zh"]/text()`)
#html_data = html.xpath(`//div/book/title/text()`)
# html_data = html.xpath(`//book/title/text()`)
# html_data = html.xpath(`//title/text()`)
# html_data = html.xpath(`//div//title/text()`)
# html_data = html.xpath(`//book/title/@*`)

# html_data = html.xpath(`//a[@href="link1.html" and @id="places_neighbours__row"]/text()`)
#html_data = html.xpath(`//a[@href="link2.html"]/text()`)
# html_data = html.xpath(`//div/ul/li/a[@id]/text()`)
# html_data = html.xpath(`//a[@href="link1.html" and @id="places_neighbours__row"]/@*`)
# html_data = html.xpath(`//a[@href="link1.html" and @id="places_neighbours__row"]/@href`)
# html_data = html.xpath(`//a[@href="link1.html" or @id="places_neighbours__row"]/text()`)
# html_data = html.xpath(`//div/book[last()]/title/text()`)
#html_data = html.xpath(`//div/book[price > 39]/title/text()`)
# html_data = html.xpath(`//li[starts-with(@class,"item")]/a/text()`)
html_data = html.xpath(`//title[contains(@lang,"eng")]/text()`)

for i in html_data:
    print(i)

Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
爬蟲之xpath的使用
2024-04-02
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲之XPath語法
2019-05-20
Python爬蟲
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
python爬蟲：XPath語法和使用示例
2020-08-09
Python爬蟲
爬蟲之xpath精準定位--位置定位
2024-06-03
爬蟲
Python爬蟲基礎學習，從一個小案例來學習xpath匹配方法
2018-06-19
Python爬蟲
基於asyncio、aiohttp、xpath的非同步爬蟲
2019-02-16
AIHTTP非同步爬蟲
Datawhale-爬蟲-Task4(學習xpath）
2019-03-04
爬蟲
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
Python爬蟲基礎講解（七）：xpath的語法
2021-05-15
Python爬蟲
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python爬蟲中使用正則match( )方法匹配目標
2021-09-11
Python爬蟲
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
爬蟲：多程式爬蟲
2021-05-19
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
爬蟲
2024-11-16
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-1 使用XPath
2019-02-26
Python爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python

爬蟲 – xpath 匹配

相關文章