爬蟲-使用lxml解析html資料

Wang發表於2021-01-20

使用lxml之前，我們首先要會使用XPath。利用XPath，就可以將html文件當做xml文件去進行處理解析了。

一、XPath的簡單使用：

XPath (XML Path Language) 是一門在 XML 文件中查詢資訊的語言，可用來在 XML 文件中對元素和屬性進行遍歷。

1.開發工具的安裝

Chrome瀏覽器，可以安裝Xpath Helper外掛。如果從網上下載外掛，得到的檔案以.crx結尾，不能直接新增到瀏覽器擴充套件程式裡，我們需要將這個檔案改為.zip結尾，然後新建一個資料夾，將.zip檔案解壓到新建的資料夾內。通過瀏覽器的擴充套件程式-載入已解壓的擴充套件程式-選擇該資料夾就可以安裝好外掛了。

2.語法

XPath使用路徑表示式來選取XML文件中的節點或者節點集。節點是通過沿著路徑（path）或步（steps）來選取的。這些路徑表示式和我們在常規的電腦檔案系統中看到的表示式非常相似。

XML例項文件

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

下面的例子中都使用這個文件進行演示。

選取節點

XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

常見路徑表示式：

表示式	描述
節點名	必須是根節點，選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

示例：

路徑表示式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文件中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名為 lang 的所有屬性。

謂語

謂語用來查詢某個特定的節點或者包含某個指定的值的節點，被嵌在方括號中。

示例：

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

選取未知節點和屬性

XPath 萬用字元可用來選取未知的 XML 元素和屬性。

萬用字元：

萬用字元	描述
*	匹配任何節點。
@*	匹配任何屬性

示例：

路徑表示式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文件中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

選取若干路徑

通過在路徑表示式中使用“|”運算子，您可以選取若干個路徑

示例：

路徑表示式	結果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素。
//title \| //price	選取文件中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文件中所有的 price 元素。

3.運算子

下面列出了可用在 XPath 表示式中的運算子：

二、lxml庫

lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。

lxml和正則一樣，也是用C實現的，是一款高效能的 Python HTML/XML 解析器，我們可以利用XPath語法，來快速的定位特定元素以及節點資訊。

1.安裝

需要安裝C語言庫，可使用 pip 安裝
```
sudo pip3 install lxml
```

2.簡單使用（僅列出常見的一些操作）

etree
- 解析html資料，主要就是用到lxml庫中的etree
etree.HTML（）
- 引數為字串，讀取字串，返回html元素，並且會自動修正html程式碼，比如缺少html標籤和body標籤，則會自動添上

etree.parse（）
- 引數為檔名，從檔案讀取內容，返回_ElementTree

etree.tostring（）
- 引數為元素或者元素樹，序列化成位元組型別

Element.xpath（）或者_ElementTree.xpath（）
- 引數是xpath表示式字串，返回的是列表。如果表示式選取的是元素，則列表由元素組成，如果表示式選取的是屬性，則列表由屬性的值組成

Element.tag
- 元素tag屬性，返回元素標籤名
Element.text
- 元素text屬性，返回元素內容

示例：

In [1]: from lxml import etree #匯入etree

In [2]: text = '''
   ...: <div>
   ...:     <ul>
   ...:         <li class="item-0"><a href="link1.html">first item</a></li>
   ...:         <li class="item-1"><a href="link2.html">second item</a></li>
   ...:         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
   ...:         <li class="item-1"><a href="link4.html">fourth item</a></li>
   ...:         <li class="item-0"><a href="link5.html">fifth item</a></li>
   ...:     </ul>
   ...: </div>
   ...: '''

In [3]: html = etree.HTML(text) #讀取字串

In [4]: html #返回html元素
Out[4]: <Element html at 0x7f3ad0bb8340>

In [5]: etree.tostring(html)#序列化成位元組型別，並自動添上了html標籤和body標籤
Out[5]: b'<html><body><div>\n    <ul>\n        <li class="item-0"><a href="link1.html">first item</a></li>\n        <li class="item-1"><a href="link2.html">second item</a></li>\n        <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n        <li class="item-1"><a href="link4.html">fourth item</a></li>\n        <li class="item-0"><a href="link5.html">fifth item</a></li>\n    </ul>\n</div>\n</body></html>'

In [6]: html2 = etree.parse('./test.html')#從檔案讀取

In [7]: html2 #返回元素樹
Out[7]: <lxml.etree._ElementTree at 0x7fc54d818d00>

In [8]: etree.tostring(html2)
Out[8]: b'<body>\n    <div>\n        <ul>\n             <li class="item-0"><a href="link1.html">first item</a></li>\n             <li class="item-1"><a href="link2.html">second item</a></li>\n             <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n             <li class="item-1"><a href="link4.html">fourth item</a></li>\n             <li class="item-0"><a href="link5.html">fifth item</a></li>\n         </ul>\n     </div>\n</body>'

In [9]: element_list = html.xpath('//a')#呼叫元素的xpath方法，選取文件中的所有a元素

In [10]: element_list #返回所有a元素組成的列表
Out[10]: 
[<Element a at 0x7fc54d849ec0>,
 <Element a at 0x7fc54d91b080>,
 <Element a at 0x7fc54d86fc80>,
 <Element a at 0x7fc54d878e40>,
 <Element a at 0x7fc54d878040>]

In [11]: element_list[0].tag #元素tag屬性，返回標籤名
Out[11]: 'a'

In [12]: element_list[0].text #元素text屬性，返回元素內容
Out[12]: 'first item'

In [13]: attr_value_list = html.xpath('//a/@href') #呼叫元素的xpath方法，選取文件中所有a元素的href屬性

In [14]: attr_value_list #返回href屬性值組成的列表
Out[14]: ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
爬蟲-使用BeautifulSoup4（bs4）解析html資料
2021-01-24
爬蟲HTML
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
Java爬蟲系列三：使用Jsoup解析HTML
2019-05-25
Java爬蟲JSHTML
Python爬蟲之路-lxml模組
2021-01-04
Python爬蟲XML
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
Python lxml ：從網頁HTML/XML提取資料
2019-07-04
PythonXML網頁HTML
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
爬蟲系列：使用 MySQL 儲存資料
2021-12-09
爬蟲MySql
Python 爬蟲實戰（二）：使用 requests-html
2018-03-14
Python爬蟲HTML
爬蟲-adsbexchange飛機網站-結果資料解析
2020-09-30
爬蟲網站
Python爬蟲之使用MongoDB儲存資料
2019-02-16
Python爬蟲MongoDB
併發爬蟲_使用motor儲存資料
2024-10-12
爬蟲
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
Python爬蟲開發與專案實戰 4: HTML解析大法
2018-05-15
Python爬蟲HTML
爬蟲技術解析：如何有效地收集網路資料
2023-11-24
爬蟲
爬蟲實戰：從HTTP請求獲取資料解析社群
2024-03-20
爬蟲HTTP
爬蟲原理與資料抓取
2020-12-17
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
使用java 爬蟲
2020-10-05
Java爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲

爬蟲-使用lxml解析html資料

一、XPath的簡單使用：

1.開發工具的安裝

2.語法

XML例項文件

選取節點

謂語

選取未知節點和屬性

選取若干路徑

3.運算子

二、lxml庫

1.安裝

2.簡單使用（僅列出常見的一些操作）

etree

etree.HTML（）

etree.parse（）

etree.tostring（）

Element.xpath（）或者_ElementTree.xpath（）

Element.tag

Element.text

示例：

相關文章