淺析Beautiful Soup庫和Lxml庫

RainbowJhon發表於2018-07-12

原文網址 : https://blog.csdn.net/qq_37608398/article/details/81019864

XML

眾所周知，Beautiful Sou和Lxml是兩個非常流行的python模組，他們常被用來對抓取到的網頁進行解析，以便進一步抓取的進行。作為一個爬蟲愛好者，今天我來簡單講講這兩個庫各自的優點和不足，不對的地方還請各位大神斧正。

Beautiful Soup模組可以用來解析網頁，並提供定位內容的便捷介面，可以用下面的命令安裝其最新版本。

>>>pip install beautifulsoup4

使用bs4庫的第一步是將以下載的HTML內容解析為soup文件，例如以下為一個簡單的HTML檔案，存在屬性值兩側引號缺失和標籤未閉合的問題。

<li>height

<li>weight

</ul>

使用bs4庫進行處理

>>>from bs4 import BeautifulSoup

>>>broken_html = '<ul class=wgxshr><li>height<li>weight</ul>'

>>>soup = BeautifulSoup(broken_html, 'html.parser')

>>>fixed_html = soup.prettify()

>>>print fixed_html

<html>

<body>

<li>height</li>

<li>weight</li>

</ul>

</body>

</html>

從上面的執行結果可以看出來，BeautifulSoup 能夠正確的解析缺失的引號並閉合標籤，此外還新增了<html>和<body>標籤使其成為完整的HTML文件，然後可以使用find()和find_all（）方法定位我們需要的元素。

但是，需要注意的是，由於這裡使用的是python內建庫，由於不同的版本容錯能力不同，這裡解析出來的HTML檔案可能是錯誤的，即weight列表項被解析為height列表項的子元素，而這種錯誤在實踐中很難被發現。另外，由於bs4是python的原生庫，相比lxml的libxml2+libxslt的原生C程式碼慢很多。

lxml是另一個python爬蟲的常用庫，它是基於libxml2這一XML解析庫的python封裝，速度比BeautifulSoup快。使用lxml的第一步也是將有可能不合法的HTML解析為同一格式。例如：

>>>import lxml.html

>>>broken_html = '<ul class=wgxshr><li>height><li><weight></ul>'

>>>tree = lxml.html.fromstring(broken_html)

>>>fixed_html = lxml.html.tostring(tree, pretty_print=True)

>>>print fixed_html

<li>height</li>

<li>weight</li>

</ul>

同樣的，lxml也可以正確解析屬性兩側缺失的引號，並閉合標籤，但是沒有像BeautifulSoup庫那樣新增額外的<html>和<body>標籤。lxml提供了幾種不同的不同的用來選擇元素的方法，如xpath選擇器，css選擇器等。

相較於BeautifulSoup庫，lxml更快且更健壯，一般來所，是抓取資料的最佳選擇。

但bs4已經可以依賴於lxml，速度有了大幅度提升，健壯性也大大提高，可以直接 soup = BeautifulSoup(html, 'lxml')了。

所以，編寫爬蟲程式時，究竟是使用正規表示式，，Beautiful Soup還是Lxml，就仁者見仁，智者見智了。

Beautiful Soup庫的使用（學習筆記）
2020-12-23
筆記
lxml庫
2021-09-09
XML
JB的Python之旅-爬蟲篇--urllib和Beautiful Soup
2018-05-15
Python爬蟲
Android NDK祕籍--淺析靜態庫和動態庫
2019-04-07
Android
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
淺析NewSQL資料庫——TiDB
2018-10-26
SQL資料庫TiDB
【Python3網路爬蟲開發實戰】4-解析庫的使用-2 使用Beautiful Soup
2018-03-19
Python爬蟲
Beautiful Soup在爬蟲中的基本使用語法
2020-12-01
爬蟲
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
xpath beautiful pyquery三種解析庫
2019-08-05
資料庫的讀現象淺析
2024-06-13
資料庫
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
優秀開源庫SDWebImage原始碼淺析
2018-11-29
Web原始碼
淺析pplx庫的設計與實現。
2020-06-19
淺析列式資料庫的特點NR
2022-03-21
資料庫
python 3.6 lxml標準庫lxml的安裝及找不到etree問題
2018-12-10
PythonXML
Dart | 淺析dart中庫的匯入與拆分
2018-08-01
Dart
LLM大模型向量資料庫技術架構淺析
2023-11-10
大模型資料庫架構
淺析雲資料庫配置錯誤的危險性
2020-06-22
資料庫
淺析IOC 和 DI
2021-06-05
淺析jQuery原理並仿寫封裝一個自己的庫
2019-04-02
jQuery封裝
pycharm安裝第三方庫lxml時失敗
2024-10-16
PyCharmXML
淺析Convert,Parse和TryParse
2019-02-22
淺析圖資料庫 Nebula Graph 資料匯入工具——Spark Writer
2020-07-16
資料庫Spark
淺談requests庫
2020-04-19
國產資料庫達夢資料庫(DM7)例項初始化引數淺析
2019-09-03
資料庫
淺析Spring的IoC和DI
2018-08-20
Spring
Python爬蟲——Xpath和lxml
2019-01-20
Python爬蟲XML
淺談JDBC和資料庫連線池
2020-11-25
JDBC資料庫
java閉包和回撥淺析
2018-07-19
Java
淺析HDFS架構和設計
2019-07-25
架構
AnalyticDB實現和特點淺析
2020-07-01
淺析mybatis中${}和#{}取值區別
2021-09-11
MyBatis
淺析證券行業資料庫基礎平臺創新實踐
2022-08-15
行業資料庫
重新學習Mysql資料庫2：『淺入淺出』MySQL 和 InnoDB
2019-11-16
MySql資料庫
iOS Block淺淺析
2019-03-10
iOSBloC
Python 從底層結構聊 Beautiful Soup 4（內建豆瓣最新電影排行榜爬取案例）
2022-03-15
Python
RunLoop 淺析
2019-01-17
OOP

淺析Beautiful Soup庫和Lxml庫

相關文章