爬蟲-使用BeautifulSoup4（bs4）解析html資料

Wang發表於2021-01-24

原文網址 : https://www.cnblogs.com/Elite-Wang/p/14306011.html

Beautiful Soup 是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 資料。

一、安裝

pip install beautifulsoup4

二、使用

匯入模組
```
from bs4 import BeautifulSoup
```

建立BeautifulSoup物件

In [1]: from bs4 import BeautifulSoup

In [2]: text = '''
   ...: <div>
   ...:     <ul>
   ...:         <li class="item-0" id="first"><a href="link1.html">first item</a></li>
   ...:         <li class="item-1"><a href="link2.html">second item</a></li>
   ...:         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
   ...:         <li class="item-1"><a href="link4.html">fourth item</a></li>
   ...:         <li class="item-0"><a href="link5.html">fifth item</a></li>
   ...:     </ul>
   ...: </div>
   ...: '''

In [3]: bs = BeautifulSoup(text)#建立BeautifulSoup物件，可以直接傳入字串

In [4]: bs1 = BeautifulSoup(open('./test.html'))#也可以傳入檔案物件

In [5]: bs
Out[5]: 
<html><body><div>
<ul>
<li class="item-0" id="first"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</body></html>

建立Beautiful Soup物件時，既可以傳入字串，也可以傳入檔案物件。它將複雜HTML文件轉換成一個複雜的樹形結構，並且會自動修正文件，像上述例子中補齊了html和body節點，每個節點都是Python物件

獲取Tag物件

In [6]: bs.ul #獲取ul標籤內容
Out[6]: 
<ul>
<li class="item-0" id="first"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>

In [7]: type(bs.ul)
Out[7]: bs4.element.Tag

In [8]: bs.li #獲取li標籤內容，注意返回的是第一個符合要求的標籤
Out[8]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

In [12]: bs.ul.li.a #可疊加查詢標籤
Out[12]: <a href="link1.html">first item</a>

通過Beautiful Soup物件後面接上‘.標籤名’來獲取需要查詢的標籤，可疊加

Tag物件常用屬性

name-----顯示標籤名

In [13]: bs.name #大部分時候，可以把BeautifulSoup當作Tag物件，是一個特殊的 Tag
Out[13]: '[document]'

In [14]: bs.li.name
Out[14]: 'li

BeautifulSoup 物件表示的是一個文件的內容。大部分時候,可以把它當作 Tag 物件

attrs----以字典的方式顯示該標籤所有屬性

In [15]: bs.attrs
Out[15]: {}

In [16]: bs.li.attrs #以字典的形式顯示所有屬性
Out[16]: {'class': ['item-0'], 'id': 'first'}

In [17]: bs.li.attrs['id'] #獲取具體的某個屬性方法1
Out[17]: 'first'

In [18]: bs.li['id'] #獲取具體屬性方法2，'.attrs'可省略
Out[18]: 'first'

In [19]: bs.li.get('id')#獲取具體 屬性方法3，利用get方法
Out[19]: 'first'

string----獲取標籤裡面的內容

In [20]: bs.li.string #li標籤裡面只有唯一的a標籤了，那麼 .string 會返回最裡面a標籤的內容
Out[20]: 'first item'

In [21]: bs.li.a.string #返回a標籤的內容
Out[21]: 'first item'

注意：如果標籤內容是一個註釋，則註釋符號會被去掉，比如“”，則返回"這是一個註釋"

contents----將直接子節點以列表的形式輸出，同時也包含換行符'\n'

In [22]: bs.ul.contents
Out[22]: 
['\n',
 <li class="item-0" id="first"><a href="link1.html">first item</a></li>,
 '\n',
 <li class="item-1"><a href="link2.html">second item</a></li>,
 '\n',
 <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>,
 '\n',
 <li class="item-1"><a href="link4.html">fourth item</a></li>,
 '\n',
 <li class="item-0"><a href="link5.html">fifth item</a></li>,
 '\n']

chilldren----將直接子節點以列表生成器的形式輸出，也包括換行符‘\n

In [28]: bs.ul.children #返回的是列表生成器物件
Out[28]: <list_iterator at 0x7f2d9e90ea30>

In [29]: for child in bs.ul.children:
    ...:     print(child)
    ...: 


<li class="item-0" id="first"><a href="link1.html">first item</a></li>


<li class="item-1"><a href="link2.html">second item</a></li>


<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>


<li class="item-1"><a href="link4.html">fourth item</a></li>


<li class="item-0"><a href="link5.html">fifth item</a></li>

descendants----返回的是一個生成器物件，進行迭代取值的時候，會遞迴迴圈的顯示所有子孫節點

In [30]: bs.ul.descendants #返回的是一個生成器物件，進行迭代取值的時候，會遞迴迴圈的顯示所有子孫節點
Out[30]: <generator object Tag.descendants at 0x7f2d9e79fc80>

In [31]: for d in bs.ul.descendants:
    ...:     print(d)
    ...: 


<li class="item-0" id="first"><a href="link1.html">first item</a></li>
<a href="link1.html">first item</a>
first item


<li class="item-1"><a href="link2.html">second item</a></li>
<a href="link2.html">second item</a>
second item


<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
<a href="link3.html"><span class="bold">third item</span></a>
<span class="bold">third item</span>
third item


<li class="item-1"><a href="link4.html">fourth item</a></li>
<a href="link4.html">fourth item</a>
fourth item


<li class="item-0"><a href="link5.html">fifth item</a></li>
<a href="link5.html">fifth item</a>
fifth item

Tag物件常用方法

find（self, name=None, attrs={}, recursive=True, text=None,**kwargs）----------只返回第一個匹配的物件

name引數----過濾標籤名，可以傳入字串、正則以及列表3種形式

In [32]: bs.find('li') #查詢第一個匹配的li標籤
Out[32]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

In [33]: bs.find(['li','a']) #查詢第一個匹配的li標籤或者a標籤
Out[33]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

In [34]: import re

In [35]: bs.find(re.compile(r'^l')) #查詢第一個以l開頭的標籤，li標籤匹配上
Out[35]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

In [36]: bs.find(re.compile(r'l$')) #查詢第一個以l結尾的標籤，html標籤符合
Out[36]: 
<html><body><div>
<ul>
<li class="item-0" id="first"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</body></html>

attrs引數----過濾屬性，dict型別

In [37]: bs.find(attrs={'class':'item-1'}) #查詢class屬性為item-1的第一個標籤
Out[37]: <li class="item-1"><a href="link2.html">second item</a></li>

recursive引數----如果為True，表示是否遞迴地從子孫節點中去查詢匹配物件。否則只從直接子節點中進行查詢

In [38]: bs.find('li',recursive=True) #遞迴查詢，能夠匹配到li物件
Out[38]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

In [39]: bs.find('li',recursive=False) #從直接子節點（即html）中無法找到li標籤

In [40]: bs.ul.find('li',recursive=False) #ul的直接子節點為li標籤，所以能夠匹配到
Out[40]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

text引數----可以搜尋文件中匹配的內容，和name引數一樣，有字串、正則、列表這3種形式

In [41]: bs.find(text='first item') #查詢字串，需要傳入完整內容，否則無法匹配
Out[41]: 'first item'

In [42]: bs.find(text=re.compile(r'item'))#查詢第一個包含item的內容
Out[42]: 'first item'

In [43]: bs.find(text=re.compile(r'ir'))#查詢第一個包含ir的內容
Out[43]: 'first item'

In [44]: bs.find(text=['second item','third item']) #查詢內容為second item或third item的第一個內容
Out[44]: 'second item'

其它關鍵字引數----關鍵字為屬性名，但是注意不能傳入和python關鍵字重名的class屬性

In [45]: bs.find(id='first') #id屬性作為關鍵字引數進行查詢
Out[45]: <li class="item-0" id="first"><a href="link1.html">first item</a></li>

In [43]: bs.find(href='link4.html') #href屬性作為關鍵字引數進行查詢
Out[43]: <a href="link4.html">fourth item</a>

In [44]: bs.find(class='item-inactive') #和python關鍵字class重名的class屬性則會報錯
  File "<ipython-input-42-a9ab4a3f6cee>", line 1
    bs.find(class='item-inactive')
            ^
SyntaxError: invalid syntax

find_all（self, name=None, attrs={}, recursive=True, text=None,**kwargs）----以列表的形式返回所有能夠匹配到的物件，所有引數用法同find（）方法

In [45]: bs.find_all('li') #查詢所有的li標籤
Out[45]: 
[<li class="item-0" id="first"><a href="link1.html">first item</a></li>,
 <li class="item-1"><a href="link2.html">second item</a></li>,
 <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>,
 <li class="item-1"><a href="link4.html">fourth item</a></li>,
 <li class="item-0"><a href="link5.html">fifth item</a></li>]

In [46]: bs.find_all('li',attrs={"class":"item-1"}) #查詢所有的li標籤，並且class屬性為item-1
Out[46]: 
[<li class="item-1"><a href="link2.html">second item</a></li>,
 <li class="item-1"><a href="link4.html">fourth item</a></li>]

get（）方法----獲取物件的特定屬性

In [47]: bs.li.get('class') #class屬性因為可以有多個，所以返回的是列表形式
Out[47]: ['item-0']

In [48]: bs.find(attrs={"class":"item-0"}).get('id') #以字串的形式返回id屬性值
Out[48]: 'first'

In [49]: bs.find_all('a')[1].get('href')
Out[49]: 'link2.html'

get_text（）方法----獲取標籤裡面的內容，同string屬性返回的結果一樣

In [50]: bs.li.get_text() #獲取第一個li最裡面的內容
Out[50]: 'first item'

In [51]: bs.find(attrs={"class":"bold"}).get_text() #獲取class屬性為bold標籤(即span標籤)裡面的內容
Out[51]: 'third item'

In [52]: bs.find_all('a')[3].get_text() #獲取第4個a標籤裡面的內容
Out[52]: 'fourth item'

select（）方法----css選擇器，同find_all方法有點類似，返回的是列表

通過標籤名查詢

In [53]: bs.select('li') #查詢所有li標籤
Out[53]: 
[<li class="item-0" id="first"><a href="link1.html">first item</a></li>,
 <li class="item-1"><a href="link2.html">second item</a></li>,
 <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>,
 <li class="item-1"><a href="link4.html">fourth item</a></li>,
 <li class="item-0"><a href="link5.html">fifth item</a></li>]

通過類名查詢，類名前加上'.'

In [54]: bs.select('.bold') #查詢class='bold'的標籤
Out[54]: [<span class="bold">third item</span>]

通過id查詢，id前加上'#'

In [55]: bs.select('#first') #查詢id為first的標籤
Out[55]: [<li class="item-0" id="first"><a href="link1.html">first item</a></li>]

混合查詢

In [56]: bs.select('.item-0 a') #查詢class="item-0"下的a標籤
Out[56]: [<a href="link1.html">first item</a>, <a href="link5.html">fifth item</a>]

In [57]: bs.select('#first a') #查詢id="first"下面的a標籤
Out[57]: [<a href="link1.html">first item</a>]

In [58]: bs.select('ul span') #查詢ul下面的span標籤
Out[58]: [<span class="bold">third item</span>]

In [59]: bs.select('ul>span') #標籤後面帶上">"表示直接子標籤，因為span標籤不是ul的直接子標籤，所以匹配不到
Out[59]: []

In [60]: bs.select('a>span') #span標籤是a標籤的子標籤，所以能匹配到
Out[60]: [<span class="bold">third item</span>]

直接子標籤查詢，則使用 > 分隔

通過屬性查詢

In [61]: bs.select('li[class="item-inactive"]') #查詢class屬性為'item-inactive'的li標籤
Out[61]: [<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>]

In [62]: bs.select('a[href="link2.html"]') #查詢href屬性為'link2.html'的a標籤
Out[62]: [<a href="link2.html">second item</a>]

爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
Java爬蟲系列三：使用Jsoup解析HTML
2019-05-25
Java爬蟲JSHTML
Python爬蟲教程-25-資料提取-BeautifulSoup4（三）
2018-09-06
Python爬蟲
Python爬蟲教程-24-資料提取-BeautifulSoup4（二）
2018-09-06
Python爬蟲
Python爬蟲教程-23-資料提取-BeautifulSoup4（一）
2018-09-06
Python爬蟲
爬蟲系列 | 6、詳解爬蟲中BeautifulSoup4的用法
2021-01-19
爬蟲
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
Python爬蟲--- 1.2 BS4庫的安裝與使用
2018-12-17
Python爬蟲
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
Python3爬蟲利器:BeautifulSoup4的安裝
2021-09-11
Python爬蟲
爬蟲系列：使用 MySQL 儲存資料
2021-12-09
爬蟲MySql
Python 爬蟲實戰（二）：使用 requests-html
2018-03-14
Python爬蟲HTML
爬蟲-adsbexchange飛機網站-結果資料解析
2020-09-30
爬蟲網站
用xpath、bs4、re爬取B站python資料
2018-08-07
Python
Python爬蟲之使用MongoDB儲存資料
2019-02-16
Python爬蟲MongoDB
併發爬蟲_使用motor儲存資料
2024-10-12
爬蟲
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
Python爬蟲開發與專案實戰 4: HTML解析大法
2018-05-15
Python爬蟲HTML
爬蟲技術解析：如何有效地收集網路資料
2023-11-24
爬蟲
爬蟲實戰：從HTTP請求獲取資料解析社群
2024-03-20
爬蟲HTTP
爬蟲原理與資料抓取
2020-12-17
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
python爬蟲-requests與bs4獲得所有爐石傳說卡背
2019-02-16
Python爬蟲
使用java 爬蟲
2020-10-05
Java爬蟲
python爬蟲之解析連結
2020-12-01
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲