Python爬蟲教程-22-lxml-etree和xpath配合使用

肖朋偉發表於2018-09-06

原文網址 : https://www.cnblogs.com/xpwi/p/9600943.html

Python爬蟲XML

Python爬蟲教程-22-lxml-etree和xpath配合使用

lxml：python 的HTML/XML的解析器
官網文件：https://lxml.de/
使用前，需要安裝安 lxml 包
功能：
- 1.解析HTML：使用 etree.HTML(text) 將字串格式的 html 片段解析成 html 文件
- 2.讀取xml檔案
- 3.etree和XPath 配合使用

lxml 的安裝

【PyCharm】>【file】>【settings】>【Project Interpreter】>【+】 >【lxml】>【install】
具體操作截圖：

lxml-etree 的使用

案例v25檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py25etree.py
用 lxml 來解析HTML程式碼

# 先安裝lxml

# 用 lxml 來解析HTML程式碼

from lxml import etree

text = '''
<div>
    <ul>
        <li class="item-0"><a href="0.html">item 0 </a></li>
        <li class="item-1"><a href="1.html">item 1 </a></li>
        <li class="item-2"><a href="2.html">item 2 </a></li>
        <li class="item-3"><a href="3.html">item 3 </a></li>
        <li class="item-4"><a href="4.html">item 4 </a></li>
        <li class="item-5"><a href="5.html">item 5 </a></li>
    </ul>     
</div>
'''

# 利用 etree.HTML 把字串解析成 HTML 檔案
html = etree.HTML(text)
s = etree.tostring(html).decode()

print(s)

執行結果

這裡寫圖片描述

lxml-etree 的使用

案例v26etree2檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py26etree2.py
讀取xml檔案：

# lxml-etree讀取檔案
from lxml import etree

xml = etree.parse("./py24.xml")
sxml = etree.tostring(xml, pretty_print=True)

print(sxml)

執行結果

這裡寫圖片描述

etree和XPath 配合使用

案例v26expath.檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py26expath.py
etree和XPath 配合使用：

# lxml-etree讀取檔案
from lxml import etree

xml = etree.parse("./py24.xml")
print(type(xml))

# 查詢所有 book 節點
rst = xml.xpath('//book')
print(type(rst))
print(rst)

# 查詢帶有 category 屬性值為 sport 的元素
rst2 = xml.xpath('//book[@category="sport"]')

print(type(rst2))
print(rst2)

# 查詢帶有category屬性值為sport的元素的book元素下到的year元素
rst3 = xml.xpath('//book[@category="sport"]/year')
rst3 = rst3[0]

print('-------------\n',type(rst3))
print(rst3.tag)
print(rst3.text)

執行結果

etree和XPath 配合使用結果
這裡寫圖片描述

更多文章連結：Python 爬蟲隨筆

本筆記不允許任何個人和組織轉載

Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
python爬蟲：XPath語法和使用示例
2020-08-09
Python爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
爬蟲之xpath的使用
2024-04-02
爬蟲
Python爬蟲之XPath語法
2019-05-20
Python爬蟲
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
爬蟲 – xpath 匹配
2018-12-20
爬蟲
Python爬蟲教程-02-使用urlopen
2018-08-05
Python爬蟲
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲基礎講解（七）：xpath的語法
2021-05-15
Python爬蟲
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
Python爬蟲教程-33-scrapy shell 的使用
2018-09-06
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)
2018-09-06
Python爬蟲CookieJAR
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
爬蟲解析庫：XPath 輕鬆上手
2019-11-03
爬蟲
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python 使用xpath爬蟲查詢身份證資訊和手機號資訊並寫入Excel表格
2018-11-02
Python爬蟲Excel
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-1 使用XPath
2019-02-26
Python爬蟲
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
Python爬蟲教程-05-python爬蟲實現百度翻譯
2018-09-06
Python爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome

Python爬蟲教程-22-lxml-etree和xpath配合使用

Python爬蟲教程-22-lxml-etree和xpath配合使用

lxml 的安裝

lxml-etree 的使用

執行結果

lxml-etree 的使用

執行結果

etree和XPath 配合使用

執行結果

更多文章連結：Python 爬蟲隨筆

相關文章