Python爬蟲精簡步驟1 獲取資料

鰓鰓鰓鰓發表於2020-02-17

原文網址 : https://blog.csdn.net/LoraRae/article/details/104010251

爬蟲的工作分為四步：
1.獲取資料。爬蟲程式會根據我們提供的網址，向伺服器發起請求，然後返回資料。
2.解析資料。爬蟲程式會把伺服器返回的資料解析成我們能讀懂的格式。
3.提取資料。爬蟲程式再從中提取出我們需要的資料。
4.儲存資料。爬蟲程式把這些有用的資料儲存起來，便於你日後的使用和分析。

這一篇的內容就是：獲取資料。

首先，我們將會利用一個強大的庫——requests來獲取資料。

在電腦上安裝的方法是：Mac電腦裡開啟終端軟體（terminal），輸入pip3 install requests，然後點選enter即可；Windows電腦裡叫命令提示符（cmd），輸入pip install requests 即可。
出現成功字樣
（requests庫可以幫我們下載網頁原始碼、文字、圖片，甚至是音訊。“下載”本質上是向伺服器傳送請求並得到響應。

Pip是一個Python的包管理工具。）

先來看**requests.get()**方法
requests.get()的具體用法如下：

import requests
#引入requests庫
res = requests.get('URL')
#requests.get是在呼叫requests庫中的get()方法，它向伺服器傳送了一個請求，括號裡的引數是你需要的資料所在的網址，然後伺服器對請求作出了響應。
#我們把這個響應返回的結果賦值在變數res上。
print(type(res))
#列印變數res的資料型別

Response物件常用的四個屬性：
1. res.status_code
檢查請求是否成功

print(res.status_code)
#列印變數res的響應狀態碼，以檢查請求是否成功

響應狀態碼	說明	舉例	說明
1xx	請求收到	100	繼續提出請求
2xx	請求成功	200	成功
3xx	重定向	305	應使用代理訪問
4xx	客戶端錯誤	403	禁止訪問
5xx	伺服器端錯誤	503	服務不可用

2.res.content
能把Response物件的內容以二進位制資料的形式返回，適用於圖片、音訊、視訊的下載

3.res.text
可以把Response物件的內容以字串的形式返回，適用於文字、網頁原始碼的下載

4.res.encoding
能幫我們定義Response物件的編碼
（遇上文字的亂碼問題，才考慮用res.encoding）

小結：
獲取資料，本質就是通過URL去向伺服器發出請求，伺服器再把相關內容封裝成一個Response物件返回給我們，這是通過requests.get()實現的，而獲取到的Response物件下有四個以上常用的屬性。

爬蟲協議：
Robots協議是網際網路爬蟲的一項公認的道德規範，它的全稱是“網路爬蟲排除標準”（Robots exclusion protocol），這個協議用來告訴爬蟲，哪些頁面是可以抓取的，哪些不可以。
如何檢視網站的robots協議呢？在網站的域名後加上/robots.txt就可以了。

python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
python爬蟲獲取天氣網實時資料
2022-11-29
Python爬蟲
爬蟲：拉勾自動投遞簡歷+資料獲取
2020-10-21
爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
python爬蟲步驟是什麼呢？
2021-09-25
Python爬蟲
利用python編寫爬蟲爬取淘寶奶粉部分資料.1
2021-09-09
Python爬蟲
python爬蟲如何獲取表情包
2021-09-11
Python爬蟲
python爬蟲-1w+套個人簡歷模板爬取
2021-03-05
Python爬蟲
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
python 爬蟲 1 爬取酷狗音樂
2020-03-29
Python爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
實時獲取股票資料，免費！——Python爬蟲Sina Stock實戰
2021-10-13
Python爬蟲
用Python網路爬蟲獲取Mikan動漫資源
2020-08-26
Python爬蟲
Python 爬蟲獲取網易雲音樂歌手資訊
2019-03-04
Python爬蟲
python爬蟲，獲取中國工程院院士資訊
2021-12-04
Python爬蟲
利用Python爬蟲獲取招聘網站職位資訊
2021-08-09
Python爬蟲網站
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
python爬蟲獲取百度熱搜
2024-06-15
Python爬蟲
API商品資料介面呼叫實戰：爬蟲與資料獲取
2023-10-29
API爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
python 爬蟲 5i5j房屋資訊獲取並儲存到資料庫
2018-08-20
Python爬蟲資料庫
python爬蟲從ip池獲取隨機IP
2021-09-11
Python爬蟲隨機
python 爬蟲之獲取標題和連結
2020-11-27
Python爬蟲
IPIDEA助力Python爬蟲精準分析市場大資料
2023-04-14
IdeaPython爬蟲大資料
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
如何高效獲取大資料?動態ip代理：用爬蟲!
2019-01-24
大資料爬蟲
爬蟲實戰：從HTTP請求獲取資料解析社群
2024-03-20
爬蟲HTTP

Python爬蟲精簡步驟1 獲取資料

相關文章