爬蟲入門系列（二）：優雅的HTTP庫requests

劉志軍發表於2017-04-12

原文網址 : https://juejin.im/post/58edc7c361ff4b00581ae8b4

在系列文章的第一篇中介紹了 HTTP 協議，Python 提供了很多模組來基於 HTTP 協議的網路程式設計，urllib、urllib2、urllib3、httplib、httplib2，都是和 HTTP 相關的模組，看名字覺得很反人類，更糟糕的是這些模組在 Python2 與 Python3 中有很大的差異，如果業務程式碼要同時相容 2 和 3，寫起來會讓人崩潰。

幸運地是，繁榮的 Python 社群給開發者帶來了一個非常驚豔的 HTTP 庫 requests，一個真正給人用的HTTP庫。它是 GitHUb 關注數最多的 Python 專案之一，requests 的作者是 Kenneth Reitz 大神。

requests 實現了 HTTP 協議中絕大部分功能，它提供的功能包括 Keep-Alive、連線池、Cookie持久化、內容自動解壓、HTTP代理、SSL認證、連線超時、Session等很多特性，最重要的是它同時相容 python2 和 python3。

快速入門

requests 的安裝可以直接使用 pip 方法：pip install requests

>>> import requests
# GET 請求
>>> response = requests.get("https://foofish.net")複製程式碼

返回的時 Response 物件，Response 物件是對 HTTP 協議中服務端返回給瀏覽器的響應資料的封裝，響應的中的主要元素包括：狀態碼、原因短語、響應首部、響應體等等，這些屬性都封裝在Response 物件中。

# 狀態碼
>>> response.status_code
200

# 原因短語
>>> response.reason
'OK'

# 響應首部
>>> for name,value in response.headers.items():
...     print("%s:%s" % (name, value))
...
Content-Encoding:gzip
Server:nginx/1.10.2
Date:Thu, 06 Apr 2017 16:28:01 GMT

# 響應內容
>>> response.content

'<html><body>此處省略一萬字...</body></html>複製程式碼

requests 除了支援 GET 請求外，還支援 HTTP 規範中的其它所有方法，包括 POST、PUT、DELTET、HEADT、OPTIONS方法。

>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')複製程式碼

構建請求查詢引數

很多URL都帶有很長一串引數，我們稱這些引數為URL的查詢引數，用"?"附加在URL連結後面，多個引數之間用"&"隔開，比如：fav.foofish.net/?p=4&s=… ，現在你可以用字典來構建查詢引數：

>>> args = {"p": 4, "s": 20}
>>> response = requests.get("http://fav.foofish.net", params = args)
>>> response.url
'http://fav.foofish.net/?p=4&s=2'複製程式碼

構建請求首部 Headers

requests 可以很簡單地指定請求首部欄位 Headers，比如有時要指定 User-Agent 偽裝成瀏覽器傳送請求，以此來矇騙伺服器。直接傳遞一個字典物件給引數 headers 即可。

>>> r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})複製程式碼

構建 POST 請求資料

requests 可以非常靈活地構建 POST 請求需要的資料，如果伺服器要求傳送的資料是表單資料，則可以指定關鍵字引數 data，如果要求傳遞 json 格式字串引數，則可以使用json關鍵字引數，引數的值都可以字典的形式傳過去。

作為表單資料傳輸給伺服器

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.post("http://httpbin.org/post", data=payload)複製程式碼

作為 json 格式的字串格式傳輸給伺服器

>>> import json
>>> url = 'http://httpbin.org/post'
>>> payload = {'some': 'data'}
>>> r = requests.post(url, json=payload)複製程式碼

Response中的響應體

HTTP返回的響應訊息中很重要的一部分內容是響應體，響應體在 requests 中處理非常靈活，與響應體相關的屬性有：content、text、json()。

content 是 byte 型別，適合直接將內容儲存到檔案系統或者傳輸到網路中

>>> r = requests.get("https://pic1.zhimg.com/v2-2e92ebadb4a967829dcd7d05908ccab0_b.jpg")
>>> type(r.content)
<class 'bytes'>
# 另存為 test.jpg
>>> with open("test.jpg", "wb") as f:
...     f.write(r.content)複製程式碼

text 是 str 型別，比如一個普通的 HTML 頁面，需要對文字進一步分析時，使用 text。

>>> r = requests.get("https://foofish.net/understand-http.html")
>>> type(r.text)
<class 'str'>
>>> re.compile('xxx').findall(r.text)複製程式碼

如果使用第三方開放平臺或者API介面爬取資料時，返回的內容是json格式的資料時，那麼可以直接使用json()方法返回一個經過json.loads()處理後的物件。

>>> r = requests.get('https://www.v2ex.com/api/topics/hot.json')
>>> r.json()
[{'id': 352833, 'title': '在長沙，父母同住...複製程式碼

代理設定

當爬蟲頻繁地對伺服器進行抓取內容時，很容易被伺服器遮蔽掉，因此要想繼續順利的進行爬取資料，使用代理是明智的選擇。如果你想爬取牆外的資料，同樣設定代理可以解決問題，requests 完美支援代理。

import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

requests.get('http://example.org', proxies=proxies)複製程式碼

超時設定

requests 傳送請求時，預設請求下執行緒一直阻塞，直到有響應返回才處理後面的邏輯。如果遇到伺服器沒有響應的情況時，問題就變得很嚴重了，它將導致整個應用程式一直處於阻塞狀態而沒法處理其他請求。

>>> import requests
>>> r = requests.get("http://www.google.coma")
...一直阻塞中複製程式碼

正確的方式的是給每個請求顯示地指定一個超時時間。

>>> r = requests.get("http://www.google.coma", timeout=5)
5秒後報錯
Traceback (most recent call last):
socket.timeout: timed out複製程式碼

Session

在爬蟲入門系列（一）：快速理解HTTP協議中介紹過HTTP協議是一中無狀態的協議，為了維持客戶端與伺服器之間的通訊狀態，使用 Cookie 技術使之保持雙方的通訊狀態。

有些網頁是需要登入才能進行爬蟲操作的，而登入的原理就是瀏覽器首次通過使用者名稱密碼登入之後，伺服器給客戶端傳送一個隨機的Cookie，下次瀏覽器請求其它頁面時，就把剛才的 cookie 隨著請求一起傳送給伺服器，這樣伺服器就知道該使用者已經是登入使用者。

import requests
# 構建會話
session  = requests.Session()
#　登入url
session.post(login_url, data={username, password})
#　登入後才能訪問的url
r = session.get(home_url)
session.close()複製程式碼

構建一個session會話之後，客戶端第一次發起請求登入賬戶，伺服器自動把cookie資訊儲存在session物件中，發起第二次請求時requests 自動把session中的cookie資訊傳送給伺服器，使之保持通訊狀態。

專案實戰

最後是一個實戰專案，如何用 requests 實現知乎自動登入並給使用者發私信，我會在下一篇文章中進行講解，關注公眾號 ‘Python之禪’。

延伸閱讀：

Python實現知乎自動登入：foofish.net/python-auto…
requests文件：docs.python-requests.org/en/master/
如何閱讀 requests 原始碼： https://www.slideshare.net/onceuponatimeforever/lets-read-code-pythonrequests-library?qid=9f3099df-4c9e-419a-ae62-b601f55b39f3&v=&b=&from_search=3

同步發表部落格：foofish.net/http-reques…
公眾號：Python之禪 (id:VTtalk)，分享 Python 等技術乾貨

Python HTTP庫：requests快速入門
2019-04-20
PythonHTTP
爬蟲之requests庫
2022-03-20
爬蟲
爬蟲入門(HTTP和HTTPS)
2018-12-09
爬蟲HTTP
爬蟲入門系列（四）：HTML 文字解析庫 BeautifulSoup
2019-02-27
爬蟲HTML
Python爬蟲神器requests庫的使用
2024-11-07
Python爬蟲
網路爬蟲筆記2， requests庫入門-2(程式設計例項)
2018-05-10
爬蟲筆記程式設計
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
python爬蟲常用庫之requests詳解
2019-03-04
Python爬蟲
爬蟲入門
2024-04-13
爬蟲
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
Python2爬蟲利器：requests庫的基本用法
2021-09-11
Python爬蟲
Python 爬蟲實戰（二）：使用 requests-html
2018-03-14
Python爬蟲HTML
爬蟲——Requests模組
2019-01-13
爬蟲
爬蟲-Requests模組
2022-03-03
爬蟲
PYTHON系列-從零開始的爬蟲入門指南
2018-09-16
Python爬蟲
6.爬蟲 requests庫講解總結
2019-04-09
爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
一隻優雅的小爬蟲誕生記
2019-01-28
爬蟲
5.爬蟲 requests庫講解高階用法
2019-04-09
爬蟲
python爬蟲requests模組
2019-03-01
Python爬蟲
Python 爬蟲從入門到進階之路（二）
2019-06-20
Python爬蟲
如何優雅的入門golang
2018-06-22
Golang
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
python-爬蟲入門
2024-09-22
Python爬蟲
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
爬蟲入門(字串相關)
2018-12-10
爬蟲字串
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
爬蟲工程師的入門簡介
2018-05-22
爬蟲工程師
爬蟲工程師的unidbg入門教程
2019-12-27
爬蟲工程師
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
三分鐘爬蟲入門
2020-05-18
爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
爬蟲快速入門——Get請求的使用
2020-10-25
爬蟲