《Python網路資料採集》筆記一

weixin_34019929發表於2016-10-22

本文為本人讀《Python網路資料採集》寫下的筆記。在第一章和第二章中，作者主要講了BeautifulSoup這個第三方庫的使用方法，以下為書中提到的比較有意思的示例(注：作者使用的是python3.x,而我使用的是python2.x;作者使用urllib庫，我使用的是requests,但對學習BeautifulSoup並沒有影響)：

第一章：

BeautifulSoup簡單的使用：

import requests
from bs4 import BeautifulSoup as bs

resp = requests.get(url='http://www.pythonscraping.com/pages/page1.html')
soup = bs(resp.content, 'html.parser')
print soup.h1

上述程式碼是一個簡單的demo。前兩行匯入了requests庫和BeautifulSoup庫，後面3行分別是：傳送一個請求並返回一個response物件，使用BeautifulSoup構建一個BeautifulSoup物件並html.parser解析器解析response的返回值，最後列印h1。然而，這段程式碼完全沒有可靠性，一旦發生異常則程式無法執行。

更好的做法是加入異常的捕獲：

import requests
from bs4 import BeautifulSoup as bs
from requests.packages.urllib3.connection import HTTPConnection
def getTitle(url):
    try:
        resp = requests.get(url=url)
        soup = bs(resp.content, 'html.parser')
        title = soup.h1
    except HTTPConnection as e:
        print e
    except AttributeError as e:
        return None
    return title
title = getTitle('http://www.pythonscraping.com/pages/page1.html')
if title == None:
    print("title could not be found")
else:
    print(title)

上述程式碼使用了異常的捕獲，一旦url寫錯或者屬性尋找錯誤，程式都可以繼續執行，並提示錯誤。

第二章(BeautifulSoup進價)

使用findAll查詢標籤包含class屬性為green或red的所有標籤

import requests
from bs4 import BeautifulSoup as bs

resp = requests.get(url='http://www.pythonscraping.com/pages/warandpeace.html')
soup = bs(resp.content, 'html.parser')
for name in soup.findAll('span': {'class': {'green', "red"}}):
    print name.get_text()

注意上述中字典的使用方法，soup.findAll('span': {'class': {'green'}})也可以使用soup.findAl(_class='green')來代替

使用children和descendants來尋找孩子節點和子孫節點

resp = requests.get(url='http://www.pythonscraping.com/pages/page3.html')
soup = bs(resp.content, 'html.parser')
for child in soup.find("table",{"id":"gitfList"}).children:
    print child

注意孩子節點只為table下一層結點，如table > tr，而table > tr > img則不包含

for child in soup.find("table",{"id":"giftList"}).descendants:
    print child

包含table下的所有節點，即子孫結點

使用兄弟結點next_siblings過濾table下的th標籤:

resp = requests.get(url='http://www.pythonscraping.com/pages/page3.html')
soup = bs(resp.content, 'html.parser')
for child in soup.find("table",{"id":"giftList"}).tr.next_siblings:
    print child

注意：為何next_siblings能過濾th標籤呢？原因是next_siblings找到的是當前節點的後面的兄弟標籤，而不包括標籤本身。

如果文章有什麼寫的不好或者不對的地方，麻煩留言哦！！！

python網路資料採集 - 讀書筆記 - 糾錯與記錄
2018-03-30
Python筆記
Python爬蟲初學二（網路資料採集）
2020-05-03
Python爬蟲
Python網路爬蟲資料採集實戰：Requests和Re庫
2020-03-22
Python爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
網路分流器｜網路分流器大資料採集方案
2018-08-15
大資料
定製化大規模網路資料採集企業級資料採集一站式解決方案
2022-06-27
phpQuery採集網站資料
2020-07-02
PHP網站
網路分流器-移動信令採集裝置-大資料採集方案
2019-05-25
大資料
.NET Core 網路資料採集 -- 使用AngleSharp做html解析
2018-04-29
HTML
記錄一次專案資料採集分析-NEWC資料洩漏
2023-06-30
網路分流器-網路匯聚分流器-移動網際網路採集器採集方案
2018-09-15
Web3.0時代，挖掘資料價值的第一步是網路資料採集
2019-12-03
Web
PHP 資料採集的一種思路
2019-01-04
PHP
Python學習筆記(一) 資料型別
2018-08-01
Python筆記資料型別
【Python資料採集】國家自然科學基金大資料知識管理服務門戶資料採集
2024-10-07
Python大資料
前端埋點資料採集（一）採集系統架構設計
2024-05-06
前端架構
網路分流器｜移動網際網路採集器｜100G LTE核心網採集裝置
2018-08-16
Python深度學習（在小型資料集上從頭開始訓練一個卷積神經網路）--學習筆記（十）
2020-11-10
Python深度學習卷積神經網路筆記
【計算機網路】資料鏈路層 | 複習筆記
2020-12-17
計算機網路筆記
網路分流器｜3G/LTE業務採集方面｜移動網際網路採集器
2018-08-17
AHT20資料採集原理電路設計
2020-12-04
Python資料分析 Series 筆記
2024-04-18
Python筆記
Python資料分析 DataFrame 筆記
2024-04-29
Python筆記
Python資料分析 numpy 筆記
2024-04-09
Python筆記
python筆記--資料型別
2021-09-09
Python筆記資料型別
Python進行資料採集時，如何避免IP被封？
2022-12-27
Python
資料採集知識分享|4大資料採集方式都有什麼？
2022-05-20
大資料
Python筆記：網頁資訊爬取簡介（一）
2020-11-11
Python筆記網頁
【計算機網路】謝希仁筆記資料鏈路層
2021-09-09
計算機網路筆記
iNeuOS工業網際網路作業系統，高效採集資料配置與應用
2023-11-29
作業系統
爬蟲筆記：提高資料採集效率！代理池和執行緒池的使用
2022-02-13
爬蟲筆記執行緒
玩轉大資料系列之一：資料採集與同步
2019-01-07
大資料
技術筆記（12）網路資料傳輸問題
2024-03-22
筆記
網站如何判斷爬蟲在採集資料？
2022-06-06
網站爬蟲
資料採集與融合技術作業一
2024-10-17
工商資訊資料採集思路
2022-06-09
Python對系統資料進行採集監控——psutil
2021-08-20
Python
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
python學習筆記：資料庫
2018-04-19
Python筆記資料庫

《Python網路資料採集》筆記一

第一章：

BeautifulSoup簡單的使用：

更好的做法是加入異常的捕獲：

第二章(BeautifulSoup進價)

使用findAll查詢標籤包含class屬性為green或red的所有標籤

使用children和descendants來尋找孩子節點和子孫節點

使用兄弟結點next_siblings過濾table下的th標籤:

相關文章