python爬蟲學習(一)：BeautifulSoup庫基礎及一般元素提取方法

我是冰霜發表於2018-04-05

原文網址 : https://www.cnblogs.com/hanmk/p/8724162.html

最近在看爬蟲相關的東西，一方面是興趣，另一方面也是借學習爬蟲練習python的使用，推薦一個很好的入門教程：中國大學MOOC的《python網路爬蟲與資訊提取》，是由北京理工的副教授嵩天老師講的，感覺講的很清晰，課件也很詳細。

學習爬蟲，怎麼也繞不開requests庫和BeautifulSoup庫，先說下BeautifulSoup庫：

BeautifulSoup庫通俗來說是【解析、遍歷、維護“標籤樹”(例如html、xml等格式的資料物件)的功能庫】
一個簡單的使用BeautifulSoup庫的demo：

# coding:utf-8

from bs4 import BeautifulSoup
import requests

url = 'http://python123.io/ws/demo.html'
r = requests.get(url)
demo = r.text  # 伺服器返回響應

soup = BeautifulSoup(demo, "html.parser")
"""
demo 表示被解析的html格式的內容
html.parser表示解析用的解析器
"""
print(soup)  # 輸出響應的html物件
print(soup.prettify())  # 使用prettify()格式化顯示輸出

得到一個BeautifulSoup物件後，一般通過BeautifulSoup類的基本元素來提取html中的內容

2.提取html中的資訊

demo中的html內容如下：

（1）

print(soup.title)  # 獲取html的title標籤的資訊
print(soup.a)  # 獲取html的a標籤的資訊(soup.a預設獲取第一個a標籤，想獲取全部就用for迴圈去遍歷)
print(soup.a.name)   # 獲取a標籤的名字
print(soup.a.parent.name)   # a標籤的父標籤(上一級標籤)的名字
print(soup.a.parent.parent.name)  # a標籤的父標籤的父標籤的名字

（2）

print('a標籤型別是：', type(soup.a))   # 檢視a標籤的型別
print('第一個a標籤的屬性是：', soup.a.attrs)  # 獲取a標籤的所有屬性(注意到格式是字典)
print('a標籤屬性的型別是：', type(soup.a.attrs))  # 檢視a標籤屬性的型別
print('a標籤的class屬性是：', soup.a.attrs['class'])   # 因為是字典，通過字典的方式獲取a標籤的class屬性
print('a標籤的href屬性是：', soup.a.attrs['href'])   # 同樣，通過字典的方式獲取a標籤的href屬性

（3）

print('第一個a標籤的內容是：', soup.a.string)  # a標籤的非屬性字串資訊，表示尖括號之間的那部分字串
print('a標籤的非屬性字串的型別是：', type(soup.a.string))  # 檢視標籤string字串的型別
print('第一個p標籤的內容是：', soup.p.string)  # p標籤的字串資訊(注意p標籤中還有個b標籤，但是列印string時並未列印b標籤，說明string型別是可跨越多個標籤層次)

介紹一下find_all()方法：

常用通過find_all()方法來查詢標籤元素：<>.find_all(name, attrs, recursive, string, **kwargs) ，返回一個列表型別，儲存查詢的結果

• name：對標籤名稱的檢索字串
• attrs：對標籤屬性值的檢索字串，可標註屬性檢索
• recursive：是否對子孫全部檢索，預設True
• string：<>…</>中字串區域的檢索字串

（1）

print('所有a標籤的內容：', soup.find_all('a')) # 使用find_all()方法通過標籤名稱查詢a標籤,返回的是一個列表型別
print('a標籤和b標籤的內容：', soup.find_all(['a', 'b']))  # 把a標籤和b標籤作為一個列表傳遞，可以一次找到a標籤和b標籤

（2）

for t in soup.find_all('a'):  # for迴圈遍歷所有a標籤，並把返回列表中的內容賦給t
      print('t的值是：', t)  # link得到的是標籤物件
      print('t的型別是：', type(t))
      print('a標籤中的href屬性是：', t.get('href'))  # 獲取a標籤中的url連結

（3）

for i in soup.find_all(True):  # 如果給出的標籤名稱是True，則找到所有標籤
    print('標籤名稱：', i.name)  # 列印標籤名稱

（4）

print('href屬性為http..的a標籤元素是:', soup.find_all('a', href='http://www.icourse163.org/course/BIT-268001'))  # 標註屬性檢索
print('class屬性為title的標籤元素是：', soup.find_all(class_='title'))  # 指定屬性，查詢class屬性為title的標籤元素，注意因為class是python的關鍵字，所以這裡需要加個下劃線'_'
print('id屬性為link1的標籤元素是：', soup.find_all(id='link1'))  # 查詢id屬性為link1的標籤元素

（5）

print(soup.head)  # head標籤
print(soup.head.contents)   # head標籤的兒子標籤，contents返回的是列表型別
print(soup.body.contents)   # body標籤的兒子標籤
"""對於一個標籤的兒子節點，不僅包括標籤節點，也包括字串節點，比如返回結果中的 \n"""

（6）

print(len(soup.body.contents))  # 獲得body標籤兒子節點的數量
print(soup.body.contents[1])   # 通過列表索引獲取第一個節點的內容

（7）

print(type(soup.body.children))  # children返回的是一個迭代物件，只能通過for迴圈來使用，不能直接通過索引來讀取其中的內容
for i in soup.body.children:   # 通過for迴圈遍歷body標籤的兒子節點
    print(i.name)   # 列印節點的名字

Python爬蟲之BeautifulSoup庫
2020-12-14
Python爬蟲
Python爬蟲教程-23-資料提取-BeautifulSoup4（一）
2018-09-06
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
11.18爬蟲學習（BeautifulSoup類）
2024-11-18
爬蟲
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
python爬蟲常用庫之BeautifulSoup詳解
2018-04-01
Python爬蟲
Python爬蟲基礎學習，從一個小案例來學習xpath匹配方法
2018-06-19
Python爬蟲
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
Python爬蟲教程-25-資料提取-BeautifulSoup4（三）
2018-09-06
Python爬蟲
Python爬蟲教程-24-資料提取-BeautifulSoup4（二）
2018-09-06
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python 小爬蟲 DrissionPage+BeautifulSoup
2024-06-16
Python爬蟲
Python：基礎&爬蟲
2023-10-29
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之網路請求庫的使用
2023-03-26
爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
python爬蟲學習手冊-伺服器渲染（基礎庫pycurl）瞭解
2018-12-03
Python爬蟲伺服器
python爬蟲基礎概念
2020-05-11
Python爬蟲
python_爬蟲基礎
2024-07-30
Python爬蟲
學爬蟲，我需要掌握哪些Python基礎？
2018-08-21
爬蟲Python
如何讓爬蟲正確提取偽元素
2020-12-13
爬蟲
Python案例學習——模組和包、爬蟲的基礎概念
2020-12-27
Python爬蟲
從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲
2019-01-02
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
【0基礎學爬蟲】爬蟲基礎之檔案儲存
2023-04-07
爬蟲
Python零基礎爬蟲教學（實戰案例手把手Python爬蟲教學）
2020-04-17
Python爬蟲
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
Python爬蟲基礎之selenium
2022-07-13
Python爬蟲
python爬蟲基礎之urllib
2020-11-26
Python爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
python爬蟲學習1
2020-11-29
Python爬蟲
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
爬蟲基礎
2019-03-30
爬蟲

python爬蟲學習(一)：BeautifulSoup庫基礎及一般元素提取方法

相關文章