Python網頁抓取工具Beautiful Soup面面觀！

shenmanli發表於2017-11-28

原文網址 : https://blog.csdn.net/tcict/article/details/78654118

Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。提供一些簡單的、python式的函式，用來處理導航、搜尋、修改分析樹等功能。

Beautiful Soup是一個工具箱，通過解析文件為使用者提供需要抓取的資料。因為簡單，所以不需要多少程式碼，就可以寫出一個完整的應用程式。

Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。除非文件沒有指定一個編碼方式，這時Beautiful Soup就不能自動識別編碼方式了，但僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python直譯器，為使用者靈活地提供不同的解析策略或強勁的速度。

Beautiful Soup 安裝

Beautiful Soup 3 目前已經停止開發，推薦在現在的專案中使用Beautiful Soup 4，不過它已經被移植到BS4了，也就是說匯入時需要import bs4 。如果你用的是新版的Debain或Ubuntu，那麼可以通過系統的軟體包管理來安裝。

Beautiful Soup支援Python標準庫中的HTML解析器，還支援一些第三方的解析器。如果不安裝它，則Python 會使用Python預設的解析器

建立Beautiful Soup 物件

首先必須要匯入bs4 庫

from bs4 import BeautifulSoup

先建立一個字串供使用

html = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1"></a>，

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.

...

"""

建立beautifulsoup物件

soup = BeautifulSoup(open('index.html'))

另外，還可以用本地HTML 檔案來建立物件，例如

print soup.prettify()

上面這句程式碼，便是將本地index.html 檔案開啟，用它來建立soup 物件

下面來列印一下soup 物件的內容，格式化輸出

print soup.prettify()

Beautiful Soup物件種類

Beautiful Soup將複雜HTML文件，轉換成一個複雜的樹形結構。

每個節點都是Python物件，所有物件可以歸納為4種：

(1)Tag

Tag 其實就是HTML 中的一個個標籤

例如

<title>The Dormouse's story</title>

<aclass="sister" href="http://example.com/elsie" id="link1">Elsie</a>

上面的title 、a 等等HTML 標籤加上裡面包括的內容就是Tag，用Beautiful Soup 來獲取Tags

print soup.title

print soup.head

print soup.a

print soup.p

print type(soup.a)

print soup.name

print soup.head.name

(2)NavigableString

如果已經得到了標籤的內容，要想獲取標籤內部的文字怎麼辦？

用.string 獲取內部文字

print soup.p.string

它的型別是一個NavigableString，其意思是可以遍歷的字串。

(3)BeautifulSoup

BeautifulSoup物件，表示的是一個文件的全部內容

很多時候可以把它當作一個特殊的Tag 物件

可以分別獲取它的型別，名稱，以及屬性

print type(soup.name)

print soup.name

print soup.attrs

(4)Comment

Comment物件是一特殊型別NavigableString物件，輸出的內容仍不包括註釋符號

如果它處理不好，可能會對文字處理造成意想不到的麻煩。

找一個帶註釋的標籤

print soup.a

print soup.a.string

print type(soup.a.string)

<a class="sister"href="http://example.com/elsie"id="link1"></a>

Elsie

<class'bs4.element.Comment'>

a 標籤裡的內容實際上是註釋，但是如果用.string 來輸出它的內容，會發現它已經把註釋符號去掉了，所以這可能會給帶來不必要的麻煩。

另外列印輸出它的型別，發現它是一個Comment 型別，在使用前最好做一下判斷

iftype(soup.a.string)==bs4.element.Comment:

print soup.a.string

使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
JB的Python之旅-爬蟲篇--urllib和Beautiful Soup
2018-05-15
Python爬蟲
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
淺析Beautiful Soup庫和Lxml庫
2018-07-12
XML
Beautiful Soup庫的使用（學習筆記）
2020-12-23
筆記
Beautiful Soup在爬蟲中的基本使用語法
2020-12-01
爬蟲
【Python3網路爬蟲開發實戰】4-解析庫的使用-2 使用Beautiful Soup
2018-03-19
Python爬蟲
Redis面面觀
2022-11-29
Redis
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
LLM面面觀之MoE
2024-04-02
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
Python 從底層結構聊 Beautiful Soup 4（內建豆瓣最新電影排行榜爬取案例）
2022-03-15
Python
【Python】Python抓取分享頁面的原始碼示例
2019-06-27
Python原始碼
目標檢測面面觀
2018-09-04
網頁資料抓取之噹噹網
2020-12-21
網頁
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
批量抓取網頁pdf檔案
2019-02-16
網頁
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
使用代理抓取網頁的原因
2021-09-11
網頁
Python併發程式設計：提高網頁抓取效率實踐指南
2023-10-13
Python程式設計網頁
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
python怎樣抓取js生成的頁面
2021-09-11
PythonJS
Python實現簡單網頁圖片抓取完整程式碼例項
2020-05-27
Python網頁
QueryList免費線上網頁採集資料抓取工具-toolfk.com
2018-11-04
網頁
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
網頁抓取的重要性介紹
2021-12-16
網頁
IP地址在網頁抓取中的作用
2022-06-20
網頁
網頁抓取如何幫助資料分析？
2022-02-11
網頁
IP地址在網頁抓取中有何作用
2022-05-09
網頁
不同行業PDM/PLM應用面面觀
2018-09-30
行業
App 出海 —— Google 結算系統面面觀
2022-04-29
APPGo
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
例項：使用puppeteer headless方式抓取JS網頁
2018-05-08
JS網頁
學會XPath，輕鬆抓取網頁資料
2023-11-30
網頁
網頁抓取與IPIDEA代理IP的關係
2023-05-04
網頁Idea

Python網頁抓取工具Beautiful Soup面面觀！

相關文章