Python 爬蟲網頁解析工具lxml.html(一)

王平發表於2018-12-05

原文網址 : https://www.yuanrenxue.com/crawler/extract-data-lxml-xpath.html

狹義上講，爬蟲只負責抓取，也就是下載網頁。而實際上，爬蟲還要負責從下載的網頁中提取我們想要的資料，即對非結構化的資料（網頁）進行解析提取出結構化的資料（有用資料）。比如，我們要抓取了一個新聞頁面的網頁（html）下來，但我們想要的是這個網頁中關於新聞的結構化資料：新聞的標題、新聞的釋出時間、新聞的正文等。

xml提取網頁內容

所以說，網頁下載下來只是第一步，還有重要的一步就是資料提取。不同的爬蟲想要的資料不一樣，提取的資料也就不一樣，但提取方法都是類似的。

最簡單的提取資料的方法，就是使用正規表示式，此種方法簡單，提取的邏輯也不能複雜，不然寫出的正規表示式就晦澀難懂，甚至不能提取複雜的資料結構。

最終，老猿經過多年的使用經驗，選擇了lxml和xpath來解析網頁提取結構化資料。順便說一下 BeautifulSoup，它也是一個很棒的解析HTML的工具，可以使用多個解析器，比如Python標準庫的parser，但是速度比較慢，也可以使用lxml作為解析器，但是它的使用方法、API跟lxml不太一樣。使用下來，還是lxml的API更舒服。

lxml 對C語言庫 libxml2和 libxslt進行繫結，提供了Pythonic的API，它有一些主要特點：

支援標準的XML
支援（損壞）的HTML
非常快的解析速度
Pythonic的API更易於使用
使用Python的unicode字串
記憶體安全（沒有段錯誤）
不需要手動管理記憶體

總結為一句話就是，C語言的速度和Python的簡易相結合的神器。

lxml有兩大部分，分別支援XML和HTML的解析：

lxml.etree 解析XML
lxml.html 解析html

lxml.etree可以用來解析RSS feed，它就是一個XML格式的文件。然而爬蟲抓取的絕大部分都是html網頁，所以，我們這裡主要講述lxml.html解析網頁的方法。

lxml.html 從html字串生成文件樹結構

我們下載得到的網頁就是一串html字串，如何把它輸入給lxml.html模組，從而生成html文件的樹結構呢？
該模組提供了幾種不同的方法：

parse(filename_url_or_file):
輸入的是一個檔名、URL或檔案物件（有read()方法）。
document_fromstring(string):
輸入的是一個html的字串，建立一個HTML文件樹結構，它的根節點就是, 和子節點。
fragment_fromstring(string, create_parent=False):
返回輸入字串的HTML片段。這個片段桌布只含有一個element（元素），也就是單一節點，除非給出了create_parent 引數，否則會報錯。
fragments_fromstring(string):
返回包含輸入字串中所有片段的列表。
fromstring(string):
返回值依據輸入字串而定，如果輸入看起來像是一個文件，則返回document_fromstring(string)，如果是一個單一片段，則返回fragment_fromstring(string)。

下面我們通過具體示例來說明上面幾個方法的不同。

document_fromstring 的使用方法

In [1]: import lxml.html  as lh

In [2]: z = lh.document_fromstring('<span>abc</span><span>xyz</span>')
# 可以看到，它自動加了根節點<html>
In [3]: z
Out[3]: <Element html at 0x7fc410667b88>

In [4]: z.tag
Out[4]: 'html'
# 還加了<body>節點
In [5]: z.getchildren()
Out[5]: [<Element body at 0x7fc4101a3ae8>]
# 把字串的兩個節點放在了<body>裡面
In [6]: z.getchildren()[0].getchildren()
Out[6]: [<Element span at 0x7fc410092bd8>, <Element span at 0x7fc410667c28>]

fragment_fromstring 的使用

In [11]: z = lh.fragment_fromstring(‘<div>abc</div><div>xyz</div>’)
---------------------------------------------------------------------------
ParserError                               Traceback (most recent call last)
<ipython-input-11-a11f9a0f71d1> in <module>()
----> 1 z = lh.fragment_fromstring(‘<div>abc</div><div>xyz</div>’)

~/.virtualenvs/py3.6/lib/python3.6/site-packages/lxml/html/__init__.py in fragment_fromstring(html, create_parent, base_url, parser, **kw)
    850         raise etree.ParserError(
    851             “Multiple elements found (%s)”
--> 852             % ‘, ‘.join([_element_name(e) for e in elements]))
    853     el = elements[0]
    854     if el.tail and el.tail.strip():
ParserError: Multiple elements found (div, div)
# 可以看到，輸入是兩個節點（element）時就會報錯
# 如果加上 create_parent 引數，就沒問題了
In [12]: z = lh.fragment_fromstring('<div>abc</div><div>xyz</div>', create_parent='p')

In [13]: z.tag
Out[13]: 'p'

In [14]: z.getchildren()
Out[14]: [<Element div at 0x7fc40a41a818>, <Element div at 0x7fc40a41aea8>]

fragments_fromstring 的使用

# 輸入字串含有一個節點，則返回包含這一個節點的列表
In [17]: lh.fragments_fromstring('<div>abc</div>')
Out[17]: [<Element div at 0x7fc40a124ea8>]

# 輸入字串含有多個節點，則返回包含這多個節點的列表
In [18]: lh.fragments_fromstring('<div>abc</div><div>xyz</div>')
Out[18]: [<Element div at 0x7fc40a124b88>, <Element div at 0x7fc40a124f98>]

fromstring 的使用


In [27]: z = lh.fromstring('<div>abc</div><div>xyz</div>')

In [28]: z
Out[28]: <Element div at 0x7fc40a0eb368>

In [29]: z.getchildren()
Out[29]: [<Element div at 0x7fc410135548>, <Element div at 0x7fc40a0eb2c8>]

In [30]: type(z)
Out[30]: lxml.html.HtmlElement

這裡，fromstring輸入的如果是多個節點，它會給加一個父節點並返回。但是像html網頁都是從節點開始的，我們使用fromstring() 和 document_fromstring() 都可以得到完整的網頁結構。

從上面程式碼中我們可以看到，那幾個函式返回的都是HtmlElement物件，也就是說，我們已經學會了如何從html字串得到HtmlElement的物件，下一節我們將學習如何操作HtmlElement物件，從中提取我們感興趣的資料。

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
《網頁爬蟲》
2018-11-26
網頁爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Python爬蟲工具列表
2018-11-15
Python爬蟲
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
【爬蟲】網頁抓包工具--Charles的使用教程
2018-12-19
爬蟲網頁
python爬取換頁_爬蟲爬不進下一頁了，怎麼辦
2020-11-24
Python爬蟲
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
Python3 | 簡單爬蟲分析網頁元素
2018-11-30
Python爬蟲網頁
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python 爬蟲的工具鏈
2018-09-22
Python爬蟲
python爬蟲怎麼翻頁
2023-11-10
Python爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
網頁用python爬取後如何解析
2021-09-11
網頁Python
爬蟲 | 基本步驟和解析網頁的幾種方法
2024-06-05
爬蟲網頁
001.01 一般網頁爬蟲處理
2019-08-06
網頁爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
網頁爬蟲--未完成
2020-10-04
網頁爬蟲