Beautiful Soup庫的使用（學習筆記）

MaR_0205發表於2020-12-23

原文網址 : https://blog.csdn.net/RM_Jin/article/details/111561853

Beautiful Soup庫的簡介

BeautifulSoup庫是解析、遍歷、維護“標籤樹”的功能庫。
可以說BeautifulSoup類對應一個HTML/XML文件的全部內容。

Beautiful Soup庫安裝

只需執行：pip install beautifulsoup4
在這裡插入圖片描述
小測試：
1.先用爬蟲爬下來一個網頁：

import requests
r = requests.get("http://python123.io/ws/demo.html")
r.text

在這裡插入圖片描述
2. 將網頁的內容作為引數傳給demo

demo = r.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")  #html.parser是HTML解析器，用來解析demo
print(soup.prettify())  #列印出來，檢視解析是否正確

在這裡插入圖片描述
安裝成功！

BeautifulSoup庫的使用：（注意大小寫）

from bs4 import BeautifulSoup  #引用BeautifulSoup庫
soup = BeautifulSoup('<p> data</p>','html.parser')
soup2 = BeautifulSoup(open("D://demo.html"),"html.parser")#通過開啟檔案的方式

BeautifulSoup庫的基本元素

Beautiful Soup庫解析器
在這裡插入圖片描述

其實哪種解析器都可以有效解析HTML和xml
基本元素
在這裡插入圖片描述

獲得Tag標籤的基本方法

獲得HTML中標籤裡的內容：soup.title
或者通過：tag = soup.title 然後 tag
效果一樣

要以字串的形式輸出標籤裡的內容則：soup.title.string
獲取標籤的名字：soup.a.name
獲取標籤父親標籤的名字： soup.a.parent.name
獲得標籤的屬性：tag = soup.a
後再 tag.attrs 結果以字典的方式輸出
檢視型別用：type(soup.p.string)

見圖，soup.p.string列印出來的內容並不包含p中的標籤的內容，由此可知 NavigableString 是可以跨越多個標籤層次的。
用type可以判斷出來是否是Comment型別，因為列印時候註釋內容也是正常列印出來的。

基於bs4庫的HTML內容的遍歷方式

標籤樹的下行遍歷：
在這裡插入圖片描述
用法例如：soup.head.contents

標籤的兒子還包括字串節點如\n

len(soup.body.contents) 獲得body兒子節點的數量
soup.body.contents[1] 檢視其第一個兒子
在這裡插入圖片描述
遍歷兒子節點：for child in soup.body.children:
print(child)
遍歷孫子節點：for child in soup.body.children:
print(child)

上行遍歷：會遍歷到soup本身
在這裡插入圖片描述
用法例如看title標籤的父親標籤：soup.title.parent
標籤html的父親標籤就是它自己
soup是一個特殊的標籤，父親是空的。
一個上行遍歷程式碼：

soup = BeautifulSoup(demo,"html.parser")

for parent in soup.a.parents:
	if parent is None:#因為會遍歷到soup本身，此時就是None
		print(parent)
	else:
		print(parent.name)

在這裡插入圖片描述

平行遍歷：
在這裡插入圖片描述
必須發生在同一個父親節點下的各個節點之間，否則不構成平行遍歷關係，還有NavigableString型別

遍歷後續節點：

for sibling in soup.a.next_siblings:
    print(sibling)

遍歷前續節點：

for sibling in soup.a.previous_siblings:
    print(sibling)

基於bs4庫的HTML格式化

如何讓HTML更加“友好”的顯示？
用的是 bs4庫的 prettify()方法，能夠對文字加換行符
在這裡插入圖片描述

*注：文章圖片來字mooc課件截圖

淺析Beautiful Soup庫和Lxml庫
2018-07-12
XML
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
Beautiful Soup在爬蟲中的基本使用語法
2020-12-01
爬蟲
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
【Python3網路爬蟲開發實戰】4-解析庫的使用-2 使用Beautiful Soup
2018-03-19
Python爬蟲
JB的Python之旅-爬蟲篇--urllib和Beautiful Soup
2018-05-15
Python爬蟲
Mpmath庫-學習筆記
2024-07-02
筆記
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
資料庫學習筆記——20 使用遊標
2021-09-09
資料庫筆記
Python機器學習筆記：sklearn庫的學習
2018-12-29
Python機器學習筆記
express-winston 庫的學習筆記
2021-11-01
Express筆記
資料庫學習筆記
2018-10-18
資料庫筆記
Python學習筆記——turtle庫
2020-10-18
Python筆記
MySQL學習筆記-使用Navicat操作MySQL資料庫
2020-10-20
MySql筆記資料庫
numpy的學習筆記\pandas學習筆記
2018-03-18
筆記
1029學習筆記資料庫
2020-11-03
筆記資料庫
python學習筆記：資料庫
2018-04-19
Python筆記資料庫
docker學習筆記（2）- 倉庫
2022-03-13
Docker筆記
MySQL資料庫學習筆記
2020-12-10
MySql資料庫筆記
CMake構建學習筆記17-uriparser庫的構建和使用
2024-09-17
筆記
資料庫mysql學習筆記記錄
2021-09-09
資料庫MySql筆記
Vue學習筆記之Webpack的使用
2020-08-02
Vue筆記Web
innodb學習筆記(一) aio的使用
2020-10-04
筆記AI
Egg 學習筆記 - 外掛的使用
2019-02-17
筆記
【學習筆記】Go Modules 使用
2019-09-17
筆記Go
webpack 學習筆記：使用 lodash
2020-10-05
Web筆記
Solidity語言學習筆記————36、庫
2018-07-08
Solid筆記
python學習筆記——jieba庫入門
2020-09-28
Python筆記Jieba
Redis學習筆記（七）資料庫
2020-05-16
Redis筆記資料庫
達夢資料庫學習筆記
2021-01-03
資料庫筆記
C語言學習筆記01--C開源庫uthash的使用
2020-12-26
C語言筆記
Android學習筆記（建立Menu,Intent的使用）
2018-08-04
Android筆記Intent
深度學習入門筆記——Transform的使用
2024-10-28
深度學習筆記ORM
深度學習入門筆記——DataLoader的使用
2024-10-29
深度學習筆記
Jest 測試框架使用的學習筆記
2021-10-02
框架筆記
Git 簡單使用學習筆記
2018-08-28
Git筆記
MySQL學習筆記---入門使用
2020-10-24
MySql筆記
webpack 學習筆記：使用 babel（上）
2020-09-27
Web筆記Babel