Requests 是一個 Python 的一個第三方庫,透過傳送 HTTP 請求獲取響應資料,一般應用於編寫網路爬蟲和介面測試等。
相比 urllib 庫,它語法簡單,更容易上手。
官方中文文件地址:Requests: 讓 HTTP 服務人類
離線文件下載地址:Requests document download
安裝 Reuqests
pip install requests
HTTP 簡介
在使用 requests 模擬傳送網路請求之前,先來簡單學習一下HTTP和常見的請求方式。
什麼是 HTTP
HTTP(HyperText Transfer Protocol ,超文字傳輸協議)是一個簡單的請求/響應協議。即一個客戶端與伺服器建立連線後,向伺服器傳送一個請求;伺服器接到請求後,給予相應的響應資訊。
HTTP工作原理
1.客戶端與伺服器端建立連線
2.客戶端向伺服器端發起請求
3.伺服器接受請求,並根據請求返回相應的內容
4.客服端與伺服器端連線關閉
客戶端和伺服器端之間的HTTP連線是一種一次性連線,它限制每次連線只處理一個請求,當伺服器返回本次請求的應答後便立即關閉,下次請求再重新建立連線。這樣做的好處就是讓伺服器不會處於一個一直等待的狀態,及時釋放連線可極大提高伺服器的執行效率。
HTTP是一種無狀態協議,意思就是伺服器不保留與客戶端連線時的任何狀態。這減輕了伺服器的記憶負擔,從而保持較快的響應速度。
HTTP的9種請求方法
每種請求方式規定了客戶端和伺服器端之間不同的資訊交換方式。
請求方法 | 描述 |
---|---|
GET | 請求指定的頁面資訊,並返回實體主體。 |
POST | 向指定資源提交資料進行處理請求(例如提交表單或者上傳檔案)。資料被包含在請求體中。POST請求可能會導致新的資源的建立或已有資源的修改。 |
HEAD | 類似於 GET 請求,只不過返回的響應中沒有具體的內容,用於獲取報頭 |
PUT | 從客戶端向伺服器傳送資料取代指定的文件的內容。 |
PATCH | 是對 PUT 方法的補充,用來對已知資源進行區域性更新 |
DELETE | 請求伺服器刪除指定的頁面 |
OPTIONS | 允許客戶端檢視伺服器的效能 |
TRACE | 回顯伺服器收到的請求,主要用於測試或診斷 |
CONNECT | HTTP/1.1 協議中預留給能夠將連線改為管道方式的代理伺服器 |
請求方法GET和POST的區別:
- GET提交的資料會放在URL之後,以?分割URL和傳輸資料,引數之間以&相連,如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的資料放在HTTP包的Body中
- GET提交的資料大小有限制(因為瀏覽器對URL的長度有限制),而POST方法提交的資料沒有限制
- GET方式需要使用Request.QueryString來取得變數的值,而POST方式透過Request.Form來獲取變數的值。
- GET方式提交資料,會帶來安全問題,比如一個登入頁面,透過GET方式提交資料時,使用者名稱和密碼將出現在URL上,如果頁面可以被快取或者其他人可以訪問這臺機器,就可以從歷史記錄獲得該使用者的賬號和密碼
HTTP狀態碼
狀態程式碼有三位數字組成,第一個數字定義了響應的類別,共分五種類別:
分類 | 分類描述 |
---|---|
1** | 指示資訊--伺服器收到請求,需要請求者繼續執行操作 |
2** | 成功--操作被成功接收並處理 |
3** | 重定向--需要進一步的操作以完成請求 |
4** | 客戶端錯誤--請求包含語法錯誤或無法完成請求 |
5** | 伺服器錯誤--伺服器在處理請求的過程中發生了錯誤 |
常見的狀態碼:
狀態碼 | 含義 |
---|---|
200 OK | 客戶端請求成功 |
400 Bad Request | 客戶端請求有語法錯誤,不能被伺服器理解 |
401 Unauthorized | 請求未經授權,這個狀態碼必須和 WWW-Authenticate 報頭域一起使用 |
403 Forbidden | 伺服器收到請求,但是拒絕服務 |
404 Not Found | 請求資源不存在,eg:輸入了錯誤的URL |
500 Internal Server Error | 伺服器發生不可預期的錯誤 |
503 Server Unavailable | 伺服器當掐你不能處理客戶端的請求,一段時間後可能恢復 |
本節參考連結:
https://www.cnblogs.com/qdhxhz/p/8468913.html
https://blog.csdn.net/qq_40100414/article/details/120122782
如果你想學習關於 HTTP 的更多知識,可以關注公眾號[願澤君],輸入"python requests"獲取高畫質電子書和本文 markdown 筆記。
requests 快速上手
requests 發起請求的步驟
使用 requests 的流程大致可以分為以下三步:
requests 發起請求的兩種方式
使用 requests 發起請求有兩種方式,以發起post請求為例:
import requests
# 方式一:
r = requests.request("post","https://www.baidu.com")
print(r.text)
# 方式二:
r = requests.post("https://www.baidu.com")
print(r.text)
requests.request(method, url, ...)
的 request 是 requests 封裝好根據 method 傳參的不同而呼叫對應的請求方法。method 引數的值可以是 get/post/put/delete/head/patch/options 等,對應我們上一節的 HTTP 請求方法。上面的示例程式碼中方式一和方式二達到的效果都是一樣的,但是推薦使用方式一,因為在後面的介面自動化測試中便於引數化,如下:
import requests
method = "get"
url = "https://www.baidu.com"
r = requests.request(method=method, url=url)
print(r.text)
請求引數
requests 發起請求時,支援傳遞的引數列表:
- method:請求的型別,格式為字串。值可以是 get\post\put\delete\files\head\patch\options
- url:請求的介面地址,格式為字串。此引數必傳
- params: get型別的介面請求的資料,格式為字典
- data:form-data 一般用於 post 型別的介面請求的資料,格式為字典/json/字串
- json: json格式的引數,格式為字典
- headers:請求頭,格式為字典
- cookies:格式為字典
- files:上傳檔案,格式為字典
- timeout:請求超時時間,float
- allow_redirects:是否支援重定向,格式為boolean
- verify:是否忽略http協議的證照錯誤,boolean:True 不忽略
在接下來的案例我們會逐一對上面的引數進行詳細講些。
發起 GET 請求
使用 Requests 模擬傳送 GET 請求,以請求百度首頁為例:
# 匯入requests庫
import requests
# 要請求的地址
url = "http://www.baidu.com"
# 發起 GET 請求,並將響應結果儲存在 res 中,res是一個 responses 物件
res = requests.get(url)
print(res.request.headers) # 檢視請求頭資訊
print(res.request.body) # 檢視請求正文
print(res.request.url) # 檢視請求url
print(res.request.method) # 檢視請求方法
print(res.content) # 響應結果的位元組碼格式,一般用於圖片,影片資料等
print(res.encoding) # 檢視響應正文的編碼格式
print(res.text) # 響應結果的字串格式,非位元組碼
print(res.status_code) # 響應結果狀態碼,200 表示成功
print(r.reason) # 響應狀態碼的描述資訊,如 OK,NotFound 等
print(res.cookies) # 獲取 cookies
print(res.headers) # 檢視響應的響應頭
print(res.url) # 檢視響應的url
如果響應內容中文顯示是亂碼,在此提供2種解決方案:
import requests
url = "http://www.baidu.com"
res = requests.get(url)
# 方案1:
res.encoding="utf-8" # 如果 res.text 中有中文亂碼,修改編碼格式為 "utf-8"
print(res.text)
# 方案2:
res.content.decode("utf-8") # 將響應結果的位元組碼格式轉換為 "utf-8" 格式
print(res.text)
1)發起攜帶引數的 GET 請求
來看一下 Request 中 get 方法的定義:
def get(url, params=None, **kwargs):
return request("get", url, params=params, **kwargs)
這意味著發起 GET 請求時,允許我們使用 params 關鍵字引數,引數的型別為字典(dict)。接下來看一個案例:
慕課網(https://www.imooc.com/)首頁搜尋 "python",按 F12 --> 點選 NetWork 抓包獲取其介面。
我們得到的介面部分資訊如下:
請求方式:get
請求url:https://www.imooc.com/search/coursesearchconditions?words=python
?words=python
問號後面的 word=python
就是我們在發起 get 請求時的要提供的引數,接下來使用 requests 來發起請求:
import requests
# 慕課網首頁課程查詢介面
url = "https://www.imooc.com/search/coursesearchconditions"
# 查詢時攜帶的引數
payload = {
'words': 'python'
}
res = requests.get(url, params=payload) # 發起攜帶引數的 get 請求
print(res.json()) # 響應內容是 json 格式的字串,我們使用 res.json() 方法進行解碼
2)定製請求頭
如果你想為請求新增 HTTP 頭部,只需要傳遞一個字典(dict)給 headers 引數即可。例如,我們發起請求時要傳遞一個 UA(User-Agent)。User-Agent 中文名為使用者代理,是Http協議中的一部分。它可以向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及版本、瀏覽器核心、等資訊的標識。透過這個標 識,使用者所訪問的網站可以顯示不同的排版從而為使用者提供更好的體驗或者進行資訊統計。
為什麼要新增 UA?
在使用 Python 的 Requests 模擬瀏覽器向伺服器傳送 Http 請求時,於某些網站會設定對 User-Agent 反爬蟲機制,因此我們傳送 Http 請求時有必要的加上 User-Agent
來將爬蟲程式的UA偽裝成某一款瀏覽器的身份標識。
import requests
url = "https://www.imooc.com/search/coursesearchconditions"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
# 查詢時攜帶的引數
payload = {
'words': 'python'
}
res = requests.get(url, params=payload, headers=headers)
print(res.json()) # 響應內容是 json 格式的字串,我們使用 res.json() 方法進行解碼
print(res.request.headers) # 檢視請求頭
關於 Header 偽裝策略的更多知識請參考以下博文:
- https://blog.csdn.net/weixin_38950569/article/details/105231122
- https://blog.csdn.net/ShyLoneGirl/article/details/117297325
發起 POST 請求
1)傳遞 data 引數
當我們要向網頁上的一些表單(form)傳遞資料時,經常需要發起 post 請求。使用 requests 發起 post 請求的方法也非常簡單,只需要傳遞一個字典給 data 引數。
import requests
url = 'http://httpbin.org/post'
payload = {'name': 'joy', 'phone': '400-7865-6666'}
r = requests.post(url=url, data=payload)
print(r.text)
執行結果:
{
...
"form": {
"key2": "value2",
"key1": "value1"
},
...
}
還可以為 data 引數傳入一個元組列表。例如表單中多個元素使用同一個 key 時,可以像下面這樣做:
import requests
url = 'http://httpbin.org/post'
payload = (('course', 'Python'), ('course', 'Java'))
r = requests.post(url=url, data=payload)
print(r.text)
響應結果:
{
...
"form": {
"course": [
"Python",
"Java"
]
},
...
}
當你想用 data 引數去接收 json 格式的資料,那麼需要把請求的資料轉換成 json 格式,並且要將請求頭設定為 application/json
。
import requests, json
url = 'https://api.github.com/some/endpoint'
data = json.dumps({
"some": "data"
})
headers = {"Content-Type":"application/json"}
r = requests.post(url, data=data, headers=headers)
print(r.text)
2) 傳遞json引數
可以使用 json
引數直接傳遞,然後它就會被自動編碼
import requests, json
url = "http://119.45.233.102:6677/testgoup/test/json"
data = {
'name': 'jay',
'age': 23
}
r = requests.post(url,json=data)
print(r.text)
這裡科普一下 json 和 dict(字典)的區別:
(1)字典是一種資料結構,是python中的一種資料型別;它是一種可變型別,可以儲存任意型別的數值,以 key:value 的形式儲存資料,但是 key 可以是任意可hash的物件 ,在一個字典中不允許出現兩個相同的key值,如果出現,後面一個key值會覆蓋前面的key值。
(2)Json是一種打包的資料格式,本質上是字串,也是按照 key:value 來儲存資料,key 只能時字串,且可以有序、重複;必須使用雙引號作為key或者值的邊界符,不能使用單引號,使用單引號或者不使用引號會使解析錯誤。可以被解析為字典或者其他形式。
(3)json.loads函式的使用,將字串轉化為字典
import json a = {'a': '1', 'b': '2', 'c': '3' } print(type(a)) # 輸出 <class 'dict'> b = json.loads('{"age": "12"}') # 引數是str行,loads之後,變成dict字典了 print(b) # 輸出 {'age': '12'} print(type(b)) # 輸出 <class 'dict'>
(4)json.dumps()函式的使用,將字典轉化為字串
import json # json.dumps()函式的使用,將字典轉化為字串 dict1 = {"age": "12"} json_info = json.dumps(dict1) print("dict1的型別:"+str(type(dict1))) print("透過json.dumps()函式處理:") print("json_info的型別:"+str(type(json_info)))
本部分參考來源:字典和Json的區別
3)傳遞 from-data 引數:
注意,requests預設是不支援from-data的請求資料的格式的。所以我們要傳from-data格式,我們需要安裝一個requests的外掛:
pip install requests_toolbelt -i https://pypi.douban.com/simple
import requests
from requests_toolbelt.multipart.encoder import MultipartEncoder
method = "post"
url = "http://119.45.233.102:6677/testgoup/test/data"
data = MultipartEncoder({
"name":"張三",
"age":"23"
})
headers = {"Content-Type":data.content_type}
r = requests.request(method,url,data=data,headers=headers)
print(r.text)
4)傳遞 auth 引數
auth是一種對介面進行鑑權的方式,和cookies和token的作用差不多的。格式:元組,比如:(“賬號”,“密碼”)
import requests
url = "http://119.45.233.102:6677/testgoup/test/auth"
method = "post"
auth = ("admin","123456")
r = requests.request(method,url,auth=auth)
print(r.text)
5)傳遞 timeout 引數
timeout用於控制響應的時間,如果超過了timeout規定的時間,那麼會直接丟擲連線失敗的錯誤資訊。timeout格式是整數,單位是秒。
import requests
method = "post"
url = "http://119.45.233.102:6677/testgoup/test/json"
data = {
"name":"張三",
"age":23
}
r = requests.request(method,url,json=data,timeout=10)
print(r.text)
6)傳遞 allow_redirects 引數
是否允許介面重定向。格式:布林值
7)傳遞 proxies 引數
在編寫爬蟲程式時,同一個IP頻繁對網站進行訪問,可能會被封IP,為了避免這種情況我們就需要用到 proxies 引數來設定代理。proxies 引數可以將代理地址替換為你的IP地址,隱藏自身IP。
proxies 引數型別
proxies = { '協議':'協議://IP:埠號' }
proxies = {
'http':'http://IP:埠號',
'https':'https://IP:埠號',
}
可以去網上搜尋免費的代理IP網站中查詢免費代理IP(注意:如果獲取到的免費IP地址無效就會報錯):
# 使用免費普通代理IP訪問測試網站: http://httpbin.org/get
import requests
url = 'http://httpbin.org/get'
headers = {'User-Agent':'Mozilla/5.0'}
# 定義代理,在代理IP網站中查詢免費代理IP
proxies = {
'http':'http://182.116.239.37:9999',
'https':'https://182.116.239.37:9999'
}
html = requests.get(url,proxies=proxies,headers=headers,timeout=5).text
print(html)
這裡推薦幾個免費代理網站,可自行嘗試:
本部分參考來源:關於代理引數-proxies那些事
8)傳遞 verify 引數
當我們請求https協議的介面的時候,如果它的證照過期了,我們就可以使用這個引數verify,設定為Fasle不檢查證照,忽略證照的問題,繼續請求。
本部分參考來源:requests從入門到精通
requests 實戰
登入介面的測試
TGU登入介面測試,登入介面資訊如下:
地址:http://119.45.233.102:2244/testgoup/login
型別:post
請求頭:application/json
請求引數:{
"phone": "133********",
"password": "e10adc3949ba59abbe56e057f20f883e",
"type": 1
}
返回值:{
"code": 1,
"data": {
"nickName": "liuyanzu666",
"token": "eyJ..."
},
"message": "登入成功!"
}
使用requests測試登入介面:
import requests
loginUrl = 'http://119.45.233.102:2244/testgoup/login'
method='post'
data = {
"phone": "133********",
"password": "e10adc3949ba59abbe56e057f20f883e",
"type": 1
}
r = requests.request(method=method, url=loginUrl, json=data)
print(r.text)
獲取使用者資訊介面的測試
由於需要登入後才能獲取到使用者資訊,在獲取使用者資訊時需要傳入登入後返回的token。完整程式碼如下:
import requests
loginUrl = 'http://119.45.233.102:2244/testgoup/login'
method='post'
data = {
"phone": "133********",
"password": "e10adc3949ba59abbe56e057f20f883e",
"type": 1
}
#登入介面
r = requests.request(method=method, url=loginUrl, json=data)
# print(r.text)
token = r.json()['data']['token']
# 獲取使用者資訊介面
userinfoUrl = 'http://119.45.233.102:2244/testgoup/user/getUserInfo'
headers = {'token': token}
r = requests.request(method='get', url=userinfoUrl, headers=headers)
print(r.text)
上述實戰程式碼均在 TestGoUp 網站開展測試,並對賬號進行了加密,可自行註冊獲取自己的賬號進行測試。
對響應結果的處理(序列化和反序列化)
上面程式碼中的 token = r.json()['data']['token']
裡有一個細節這裡要展開敘述一下。來看一下登入介面返回的響應結果,也就是 print(r.text)
的值:
{
"code": 1,
"data": {
"nickName": "liuyanzu666",
"token": "eyJhbGci..." # token太長了,這裡刪掉部分資料
},
"message": "登入成功!"
}
咋一看這是一個python字典型別的資料,有的同學可能說這是 json 型別的資料。到底是字典還是json型別的資料,我們使用 type()
方法對 r.text
進行判斷即可。
print(type(r.text)) # 返回結果是 <class 'str'>
返回結果居然是 str 型別的資料。現在我們要從 r.text
中獲取 token
值,如果我們將它從 str 型別轉換成字典型別,那麼就可以透過 token
鍵獲取對應的 toekn
值了。這裡就引出了我們要講的知識點:
Python序列化和反序列化
序列化:將Python中字典型別的資料轉換成json格式的字串,以便進行儲存和傳輸。
反序列化:將json格式的字串轉換成Python的字典型別資料,便於對其分析和處理。
我們可以使用 json 模組來實現序列化和反序列化:
import json
# 字典型別的資料
data = {
"name": "張三",
"age": 18
}
# 使用 json.dumps() 進行序列化:字典-->字串
res = json.dumps(data)
print(res) # 輸出結果:{"name": "\u5f20\u4e09", "age": 18}
print(type(res)) # 輸出結果:<class 'str'>
# 使用 json.loads() 進行反序列化:字串-->字典
res2 = json.loads(res)
print(res2) # 輸出結果:{'name': '張三', 'age': 18}
print(type(res2)) # 輸出結果:<class 'dict'>
上面闡述了使用 python 進行序列化和反序列化的方法,但是在登入介面中獲取token值的時候 ,我們並沒有使用 json.loads()
進行反序列化,而是使用 ``token = r.json()['data']['token'],也就是
r.json()` 方法。
也就是說在上面的程式碼中,獲取token我們可以使用兩種方法:
...
r = requests.request(method=method, url=loginUrl, json=data)
方法一:
token = json.loads(r.text)['data']['token']
方法二:
token = r.json()['data']['token']
...
至此,關於 Python Requests 的介紹就告一段落了,感謝您的閱讀。如果本文對您有幫助,請幫我點個贊吧~如果想獲取本文的 markdown 筆記、電子書和相關原始碼,請關注我的WX公眾號[願澤君],傳送 "python requests" 即可。