利用python指令碼（xpath）抓取資料

獵手家園發表於2017-04-13

原文網址 : https://www.cnblogs.com/hunttown/p/6703791.html

有人會問re和xpath是什麼關係？如果你瞭解js與jquery，那麼這個就很好理解了。

# -*- coding:utf-8 -*-
from lxml import etree

html = """
    <!DOCTYPE html>
    <html>
        <head lang="en">
        <title>我的文件</title>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
        </head>
        <body>
            <div id="cctv">
                <div class="content">
                    <ul id="ul">
                        <li>NO.1</li>
                        <li>NO.2</li>
                        <li>NO.3</li>
                    </ul>
                    <ul id="ul2">
                        <li><span class="ctv">one</span></li>
                        <li><span class="ctv">two</span></li>
                    </ul>
                </div>
                <div id="url">
                    <a href="http://www.jd.com" title="jd">jd</a>
                    <a href="http://www.360buy.com" title="360buy">360buy</a>
                </div>
            </div>
        </body>
    </html>
"""
selector = etree.HTML(html)

# ########### example 1 ############
# 這裡使用id屬性來定位哪個div和ul被匹配 使用text()獲取文字內容
# 這裡注意要層層匹配
# content = selector.xpath('//div[@id="cctv"]/div[@class="content"]/ul[@id="ul"]/li/text()')
# content = selector.xpath('//div[@id="cctv"]/div[@class="content"]/ul[@id="ul2"]/li/span[@class="ctv"]/text()')
content = selector.xpath('//a/@href')

for i in content:
    print(i)
print(u"************ 華麗分割符1 ************")

# ########### example 2 ############
# 使用絕對路徑定位a標籤的title
con = selector.xpath('/html/body/div/a/@title')
# 使用相對路徑定位 兩者效果是一樣的
con = selector.xpath('//a/@title')
print(len(con))
print(con[0], con[1])
print(u"************ 華麗分割符2 ************")

# ########### example 3 ############
# starts-with 解決標籤屬性值以相同字串開頭的情況
con2 = selector.xpath('//span[starts-with(@class,"c")]/text()')  # 這裡使用starts-with方法提取div的id標籤屬性值開頭為a的div標籤
for i in con2:
    print(i)
print(u"************ 華麗分割符3 ************")

# string(.) 標籤套標籤
html2 = '''
   <div id="a">
       left
        <span id="b">
           right
            <ul>
               up
                <li>down</li>
            </ul>
           east
        </span>
        west
    </div>
'''

# 下面是沒有用string方法的輸出
selector2 = etree.HTML(html2)
con3 = selector2.xpath('//div[@id="a"]/text()')
for i in con3:
    print(i)
print(u"************ 華麗分割符4 ************")

# 下面使用string方法的輸出
data = selector2.xpath('//div[@id="a"]')
# info = data[0].xpath('string(.)').extract()[0]
info = data[0].xpath('string(.)')
con4 = info.replace('\n', '').replace(' ', '')
for i in con4:
    # python 輸出結果預設是\n，換行，將結尾替換掉即可實現不換行。
    print(i, end='')
print("\r")
print(u"************ 華麗分割符5 ************")

# ########### example 4 ############
html3 = """
    <div>hello
        <p>H</p>
    </div>
    <div>hehe</div>
"""
selector3 = etree.HTML(html3)
# 使用text()的方法來判別是哪個div標籤
con5 = selector3.xpath('//div[text()="hehe"]/text()')
print(con5[0])
print(u"************ 華麗分割符6 ************")

# ########### example 5 ############
html4 = """
    <div id="utv">hello
        <p>H</p>
        <p>J</p>
        <p>I</p>
    </div>
    <div>hehe</div>
"""
selector4 = etree.HTML(html4)
# 在XPath中可以使用多重過濾方法尋找標籤，例如ul[3][@id=”a”] 這裡使用【3】來尋找第三個ul標籤 並且它的id屬性值為a
con6 = selector4.xpath('//div/p[position()>=2]/text()')
for i in con6:
    print(i)
print(u"************ 華麗分割符7 ************")

學會XPath，輕鬆抓取網頁資料
2023-11-30
網頁
抓取金投網文字資料（xpath練習）
2024-08-07
濤思資料 TDengine 徵稿— 利用python指令碼做TDengine效能測試
2024-04-20
Python指令碼
python簡書資料抓取
2018-08-25
Python
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
python指令碼批次建立資料表
2024-08-07
Python指令碼
Shell指令碼 | 抓取log檔案
2019-02-22
指令碼
Elasticsearch批量匯入資料指令碼（python）
2018-08-11
Elasticsearch指令碼Python
Python抓取淘寶IP地址資料
2019-04-26
Python
利用Python實現自動掃雷小指令碼
2019-01-10
Python指令碼
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
python 建立mysql資料庫腳(執行sql)指令碼程式碼
2024-12-03
PythonMySql資料庫指令碼
python xpath用法
2018-07-30
Python
用xpath、bs4、re爬取B站python資料
2018-08-07
Python
補錄資料指令碼
2024-12-01
指令碼
【Python】Python抓取分享頁面的原始碼示例
2019-06-27
Python原始碼
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
資料庫備份指令碼
2022-02-13
資料庫指令碼
使用ajax指令碼取資料
2021-01-06
指令碼
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
python 常用指令碼
2019-01-08
Python指令碼
19、python 指令碼
2024-04-15
Python指令碼
手機爬蟲用Appium詳細教程：利用Python控制移動App進行自動化抓取資料
2023-10-16
爬蟲APPPython
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
jmeter利用自身代理錄製指令碼
2018-04-20
JMeter指令碼
IDEA 利用groovy指令碼生成註釋
2024-10-31
Idea指令碼
Web UI 自動化單個xpath抓取外掛詳解
2018-03-10
WebUI
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲
Python爬蟲如何去抓取qq音樂的歌手資料？
2021-03-19
Python爬蟲
資料統計指令碼（彙總）
2018-07-23
指令碼
呼叫中心資料入庫指令碼
2019-11-18
指令碼
使用shell 指令碼備份資料
2020-09-29
指令碼
MySQL匯出資料庫指令碼
2024-06-15
MySql資料庫指令碼
利用IP代理進行網路抓取可以幫助企業收集哪些資料？
2022-02-26
Python利用pandas處理資料與分析
2024-03-25
Python
薦書 | 《利用Python進行資料分析》
2019-05-13
Python
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲

利用python指令碼（xpath）抓取資料

相關文章