《Python網路資料採集》筆記一
本文為本人讀《Python網路資料採集》寫下的筆記。在第一章和第二章中,作者主要講了BeautifulSoup這個第三方庫的使用方法,以下為書中提到的比較有意思的示例(注:作者使用的是python3.x,而我使用的是python2.x;作者使用urllib庫,我使用的是requests,但對學習BeautifulSoup並沒有影響):
第一章:
BeautifulSoup簡單的使用:
import requests
from bs4 import BeautifulSoup as bs
resp = requests.get(url='http://www.pythonscraping.com/pages/page1.html')
soup = bs(resp.content, 'html.parser')
print soup.h1
上述程式碼是一個簡單的demo。前兩行匯入了requests庫和BeautifulSoup庫,後面3行分別是:傳送一個請求並返回一個response物件,使用BeautifulSoup構建一個BeautifulSoup物件並html.parser解析器解析response的返回值,最後列印h1。然而,這段程式碼完全沒有可靠性,一旦發生異常則程式無法執行。
更好的做法是加入異常的捕獲:
import requests
from bs4 import BeautifulSoup as bs
from requests.packages.urllib3.connection import HTTPConnection
def getTitle(url):
try:
resp = requests.get(url=url)
soup = bs(resp.content, 'html.parser')
title = soup.h1
except HTTPConnection as e:
print e
except AttributeError as e:
return None
return title
title = getTitle('http://www.pythonscraping.com/pages/page1.html')
if title == None:
print("title could not be found")
else:
print(title)
上述程式碼使用了異常的捕獲,一旦url寫錯或者屬性尋找錯誤,程式都可以繼續執行,並提示錯誤。
第二章(BeautifulSoup進價)
使用findAll查詢標籤包含class屬性為green或red的所有標籤
import requests
from bs4 import BeautifulSoup as bs
resp = requests.get(url='http://www.pythonscraping.com/pages/warandpeace.html')
soup = bs(resp.content, 'html.parser')
for name in soup.findAll('span': {'class': {'green', "red"}}):
print name.get_text()
注意上述中字典的使用方法,soup.findAll('span': {'class': {'green'}})也可以使用soup.findAl(_class='green')來代替
使用children和descendants來尋找孩子節點和子孫節點
resp = requests.get(url='http://www.pythonscraping.com/pages/page3.html')
soup = bs(resp.content, 'html.parser')
for child in soup.find("table",{"id":"gitfList"}).children:
print child
注意孩子節點只為table下一層結點,如table > tr,而table > tr > img則不包含
for child in soup.find("table",{"id":"giftList"}).descendants:
print child
包含table下的所有節點,即子孫結點
使用兄弟結點next_siblings過濾table下的th標籤:
resp = requests.get(url='http://www.pythonscraping.com/pages/page3.html')
soup = bs(resp.content, 'html.parser')
for child in soup.find("table",{"id":"giftList"}).tr.next_siblings:
print child
注意:為何next_siblings能過濾th標籤呢?原因是next_siblings找到的是當前節點的後面的兄弟標籤,而不包括標籤本身。
如果文章有什麼寫的不好或者不對的地方,麻煩留言哦!!!
相關文章
- python網路資料採集 - 讀書筆記 - 糾錯與記錄Python筆記
- Python爬蟲初學二(網路資料採集)Python爬蟲
- Python網路爬蟲資料採集實戰:Requests和Re庫Python爬蟲
- python網路爬蟲筆記(一)Python爬蟲筆記
- 網路分流器|網路分流器大資料採集方案大資料
- 定製化大規模網路資料採集企業級資料採集一站式解決方案
- phpQuery採集網站資料PHP網站
- 網路分流器-移動信令採集裝置-大資料採集方案大資料
- .NET Core 網路資料採集 -- 使用AngleSharp做html解析HTML
- 記錄一次專案資料採集分析-NEWC資料洩漏
- 網路分流器-網路匯聚分流器-移動網際網路採集器採集方案
- Web3.0時代,挖掘資料價值的第一步是網路資料採集Web
- PHP 資料採集的一種思路PHP
- Python學習筆記(一) 資料型別Python筆記資料型別
- 【Python資料採集】國家自然科學基金大資料知識管理服務門戶資料採集Python大資料
- 前端埋點資料採集(一)採集系統架構設計前端架構
- 網路分流器|移動網際網路採集器|100G LTE核心網採集裝置
- Python深度學習(在小型資料集上從頭開始訓練一個卷積神經網路)--學習筆記(十)Python深度學習卷積神經網路筆記
- 【計算機網路】資料鏈路層 | 複習筆記計算機網路筆記
- 網路分流器|3G/LTE業務採集方面|移動網際網路採集器
- AHT20資料採集原理電路設計
- Python資料分析 Series 筆記Python筆記
- Python資料分析 DataFrame 筆記Python筆記
- Python資料分析 numpy 筆記Python筆記
- python筆記--資料型別Python筆記資料型別
- Python進行資料採集時,如何避免IP被封?Python
- 資料採集知識分享|4大資料採集方式都有什麼?大資料
- Python筆記:網頁資訊爬取簡介(一)Python筆記網頁
- 【計算機網路】謝希仁筆記 資料鏈路層計算機網路筆記
- iNeuOS工業網際網路作業系統,高效採集資料配置與應用作業系統
- 爬蟲筆記:提高資料採集效率!代理池和執行緒池的使用爬蟲筆記執行緒
- 玩轉大資料系列之一:資料採集與同步大資料
- 技術筆記(12)網路資料傳輸問題筆記
- 網站如何判斷爬蟲在採集資料?網站爬蟲
- 資料採集與融合技術作業一
- 工商資訊資料採集思路
- Python對系統資料進行採集監控——psutilPython
- python爬蟲 之 scrapy框架採集2000期彩票資料Python爬蟲框架
- python學習筆記:資料庫Python筆記資料庫