Python爬蟲精簡步驟1 獲取資料
爬蟲的工作分為四步:
1.獲取資料。爬蟲程式會根據我們提供的網址,向伺服器發起請求,然後返回資料。
2.解析資料。爬蟲程式會把伺服器返回的資料解析成我們能讀懂的格式。
3.提取資料。爬蟲程式再從中提取出我們需要的資料。
4.儲存資料。爬蟲程式把這些有用的資料儲存起來,便於你日後的使用和分析。
這一篇的內容就是:獲取資料。
首先,我們將會利用一個強大的庫——requests來獲取資料。
在電腦上安裝的方法是:Mac電腦裡開啟終端軟體(terminal),輸入pip3 install requests,然後點選enter即可;Windows電腦裡叫命令提示符(cmd),輸入pip install requests 即可。
(requests庫可以幫我們下載網頁原始碼、文字、圖片,甚至是音訊。“下載”本質上是向伺服器傳送請求並得到響應。
Pip是一個Python的包管理工具。)
先來看**requests.get()**方法
requests.get()的具體用法如下:
import requests
#引入requests庫
res = requests.get('URL')
#requests.get是在呼叫requests庫中的get()方法,它向伺服器傳送了一個請求,括號裡的引數是你需要的資料所在的網址,然後伺服器對請求作出了響應。
#我們把這個響應返回的結果賦值在變數res上。
print(type(res))
#列印變數res的資料型別
Response物件常用的四個屬性:
1. res.status_code
檢查請求是否成功
print(res.status_code)
#列印變數res的響應狀態碼,以檢查請求是否成功
響應狀態碼 | 說明 | 舉例 | 說明 |
---|---|---|---|
1xx | 請求收到 | 100 | 繼續提出請求 |
2xx | 請求成功 | 200 | 成功 |
3xx | 重定向 | 305 | 應使用代理訪問 |
4xx | 客戶端錯誤 | 403 | 禁止訪問 |
5xx | 伺服器端錯誤 | 503 | 服務不可用 |
2.res.content
能把Response物件的內容以二進位制資料的形式返回,適用於圖片、音訊、視訊的下載
3.res.text
可以把Response物件的內容以字串的形式返回,適用於文字、網頁原始碼的下載
4.res.encoding
能幫我們定義Response物件的編碼
(遇上文字的亂碼問題,才考慮用res.encoding)
小結:
獲取資料,本質就是通過URL去向伺服器發出請求,伺服器再把相關內容封裝成一個Response物件返回給我們,這是通過requests.get()實現的,而獲取到的Response物件下有四個以上常用的屬性。
爬蟲協議:
Robots協議是網際網路爬蟲的一項公認的道德規範,它的全稱是“網路爬蟲排除標準”(Robots exclusion protocol),這個協議用來告訴爬蟲,哪些頁面是可以抓取的,哪些不可以。
如何檢視網站的robots協議呢?在網站的域名後加上/robots.txt就可以了。
相關文章
- 爬蟲:拉勾自動投遞簡歷+資料獲取爬蟲
- python爬蟲獲取天氣網實時資料Python爬蟲
- 利用python編寫爬蟲爬取淘寶奶粉部分資料.1Python爬蟲
- python爬蟲 爬取豆瓣電影 1-10 ajax 資料Python爬蟲
- python爬蟲步驟是什麼呢?Python爬蟲
- python爬蟲-1w+套個人簡歷模板爬取Python爬蟲
- 利用Python爬蟲爬取天氣資料Python爬蟲
- python爬蟲如何獲取表情包Python爬蟲
- Scrapy爬蟲 - 獲取知乎使用者資料爬蟲
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 從零開始學爬蟲(3):通過MongoDB資料庫獲取爬蟲資料爬蟲MongoDB資料庫
- Python之分散式爬蟲的實現步驟Python分散式爬蟲
- python 爬蟲 1 爬取酷狗音樂Python爬蟲
- Python爬蟲框架:scrapy爬取高考派大學資料Python爬蟲框架
- Python爬蟲入門【3】:美空網資料爬取Python爬蟲
- 用PYTHON爬蟲簡單爬取網路小說Python爬蟲
- Python爬蟲學習(5): 簡單的爬取Python爬蟲
- API商品資料介面呼叫實戰:爬蟲與資料獲取API爬蟲
- 輕鬆利用Python爬蟲爬取你想要的資料Python爬蟲
- python爬蟲獲取百度熱搜Python爬蟲
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- 實時獲取股票資料,免費!——Python爬蟲Sina Stock實戰Python爬蟲
- python網路爬蟲(7)爬取靜態資料詳解Python爬蟲
- Python爬蟲訓練:爬取酷燃網視訊資料Python爬蟲
- 用Python網路爬蟲獲取Mikan動漫資源Python爬蟲
- 不會Python爬蟲?教你一個通用爬蟲思路輕鬆爬取網頁資料Python爬蟲網頁
- 爬蟲爬取資料如何繞開限制?爬蟲
- Python 爬蟲獲取網易雲音樂歌手資訊Python爬蟲
- python爬蟲從ip池獲取隨機IPPython爬蟲隨機
- python 爬蟲之獲取標題和連結Python爬蟲
- python爬蟲,獲取中國工程院院士資訊Python爬蟲
- 如何高效獲取大資料?動態ip代理:用爬蟲!大資料爬蟲
- 爬蟲實踐之獲取網易雲評論資料資訊爬蟲
- 全棧 - 8 爬蟲 使用 urllib2 獲取資料全棧爬蟲
- 爬蟲實戰:從HTTP請求獲取資料解析社群爬蟲HTTP
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- python 爬蟲 5i5j房屋資訊 獲取並儲存到資料庫Python爬蟲資料庫
- Python爬蟲之小說資訊爬取與資料視覺化分析Python爬蟲視覺化