Python之Requests模組使用詳解

pythontab發表於2017-05-10

Requests模組是一個用於網路訪問的模組,其實類似的模組有很多,比如urllib,urllib2,httplib,httplib2,他們基本都提供相似的功能,那為什麼Requests模組就能夠脫引而出呢?可以開啟它的官網看一下,是一個“人類“用的http模組。那麼,它究竟怎樣的人性化呢?相信如果你之前用過urllib之類的模組的話,對比下就會發現它確實很人性化。

一、匯入

下載完成後,匯入模組很簡單,程式碼如下:

import requests

二、請求url

這裡我們列出最常見的傳送get或者post請求的語法。

1.傳送無引數的get請求:

r=requests.get("http://pythontab.com/justTest")

現在,我們得到了一個響應物件r,我們可以利用這個物件得到我們想要的任何資訊。

上面的例子中,get請求沒有任何引數,那如果請求需要引數怎麼辦呢?


2.傳送帶引數的get請求

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://pythontab.com/justTest", params=payload)

以上得知,我們的get引數是以params關鍵字引數傳遞的。

我們可以列印請求的具體url來看看到底對不對:

>>>print r.url
http://pythontab.com/justTest?key2=value2&key1=value1

可以看到確實訪問了正確的url。

還可以傳遞一個list給一個請求引數:

>>> payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
>>> r = requests.get("http://pythontab.com/justTest", params=payload)
>>> print r.url
http://pythontab.com/justTest?key1=value1&key2=value2&key2=value3

以上就是get請求的基本形式。


3.傳送post請求

r = requests.post("http://pythontab.com/postTest", data = {"key":"value"})

以上得知,post請求引數是以data關鍵字引數來傳遞的。

現在的data引數傳遞的是字典,我們也可以傳遞一個json格式的資料,如下:

>>> import json
>>> import requests
>>> payload = {"key":"value"}
>>> r = requests.post("http://pythontab.com/postTest", data = json.dumps(payload))

由於傳送json格式資料太常見了,所以在Requests模組的高版本中,又加入了json這個關鍵字引數,可以直接傳送json資料給post請求而不用再使用json模組了,見下:

>>> payload = {"key":"value"}
>>> r = requests.post("http://pythontab.com/postTest", json=payload)

如果我們想post一個檔案怎麼辦呢?這個時候就需要用到files引數了:

>>> url = 'http://pythontab.com/postTest'
>>> files = {'file': open('report.xls', 'rb')}
>>> r = requests.post(url, files=files)
>>> r.text

我們還可以在post檔案時指定檔名等額外的資訊:

>>> url = 'http://pythontab.com/postTest'
>>> files = {'file': ('report.xls', open('report.xls', 'rb'), 'application/vnd.ms-excel', {'Expires': '0'})}
>>> r = requests.post(url, files=files)

tips:強烈建議使用二進位制模式開啟檔案,因為如果以文字檔案格式開啟時,可能會因為“Content-Length”這個header而出錯。


可以看到,使用Requests傳送請求簡單吧!

三、獲取返回資訊

下面我們來看下傳送請求後如何獲取返回資訊。我們繼續使用最上面的例子:

>>> import requests
>>> r=requests.get('http://pythontab.com/justTest')
>>> r.text

r.text是以什麼編碼格式輸出的呢?

>>> r.encoding
'utf-8'

原來是以utf-8格式輸出的。那如果我想改一下r.text的輸出格式呢?

>>> r.encoding = 'ISO-8859-1'

這樣就把輸出格式改為“ISO-8859-1”了。

還有一個輸出語句,叫r.content,那麼這個和r.text有什麼區別呢?r.content返回的是位元組流,如果我們請求一個圖片地址並且要儲存圖片的話,就可以用到,這裡舉個程式碼片段如下:

def saveImage( imgUrl,imgName ="default.jpg" ):
    r = requests.get(imgUrl, stream=True)
    image = r.content
    destDir="D:\"
    print("儲存圖片"+destDir+imgName+"\n")
    try:
        with open(destDir+imgName ,"wb") as jpg:
            jpg.write(image)     
            return
    except IOError:
        print("IO Error")
        return
    finally:
        jpg.close

剛才介紹的r.text返回的是字串,那麼,如果請求對應的響應是一個json,那我可不可以直接拿到json格式的資料呢?r.json()就是為這個準備的。

我們還可以拿到伺服器返回的原始資料,使用r.raw.read()就可以了。不過,如果你確實要拿到原始返回資料的話,記得在請求時加上“stream=True”的選項,如:

r = requests.get('https://api.github.com/events', stream=True)。

我們也可以得到響應狀態碼:

>>> r = requests.get('http://pythontab.com/justTest')
>>> r.status_code
200

也可以用requests.codes.ok來指代200這個返回值:

>>> r.status_code == requests.codes.ok
True

四、關於headers

我們可以列印出響應頭:

>>> r= requests.get("http://pythontab.com/justTest")
>>> r.headers

`r.headers`返回的是一個字典,例如:

{
    'content-encoding': 'gzip',
    'transfer-encoding': 'chunked',
    'connection': 'close',
    'server': 'nginx/1.0.4',
    'x-runtime': '147ms',
    'etag': '"e1ca502697e5c9317743dc078f67693a"',
    'content-type': 'application/json'
}

我們可以使用如下方法來取得部分響應頭以做判斷:

r.headers['Content-Type']

或者

r.headers.get('Content-Type')

如果我們想獲得請求頭(也就是我們向伺服器傳送的頭資訊)該怎麼辦呢?可以使用r.request.headers直接獲得。

同時,我們在請求資料時也可以加上自定義的headers(透過headers關鍵字引數傳遞):

>>> headers = {'user-agent': 'myagent'}
>>> r= requests.get("http://pythontab.com/justTest",headers=headers)

五、關於Cookies

如果一個響應包含cookies的話,我們可以使用下面方法來得到它們:

>>> url = 'http://www.pythontab.com'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
'example_cookie_value'

我們也可以傳送自己的cookie(使用cookies關鍵字引數):

>>> url = 'http://pythontab.com/cookies'
>>> cookies={'cookies_are':'working'}
>>> r = requests.get(url, cookies=cookies)

六、關於重定向

有時候我們在請求url時,伺服器會自動把我們的請求重定向,比如github會把我們的http請求重定向為https請求。我們可以使用r.history來檢視重定向:

>>> r = requests.get('http://pythontab.com/')
>>> r.url
'http://pythontab.com/'
>>> r.history
[]

從上面的例子中可以看到,我們使用http協議訪問,結果在r.url中,列印的卻是https協議。那如果我非要伺服器使用http協議,也就是禁止伺服器自動重定向,該怎麼辦呢?使用allow_redirects 引數:

r = requests.get('http://pythontab.com', allow_redirects=False)

七、關於請求時間

我們可以使用timeout引數來設定url的請求超時時間(時間單位為秒):

requests.get('http://pythontab.com', timeout=1)

八、關於代理

我們也可以在程式中指定代理來進行http或https訪問(使用proxies關鍵字引數),如下:

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}
requests.get("http://pythontab.com", proxies=proxies)

九、關於session

我們有時候會有這樣的情況,我們需要登入某個網站,然後才能請求相關url,這時就可以用到session了,我們可以先使用網站的登入api進行登入,然後得到session,最後就可以用這個session來請求其他url了:

s=requests.Session()
login_data={'form_email':'youremail@example.com','form_password':'yourpassword'}
s.post("http://pythontab.com/testLogin",login_data)
r = s.get('http://pythontab.com/notification/')
print r.text

其中,form_email和form_password是豆瓣登入框的相應元素的name值。


十、下載頁面

使用Requests模組也可以下載網頁,程式碼如下:

r=requests.get("http://www.pythontab.com")
with open("haha.html","wb") as html:
    html.write(r.content)
html.close()


相關文章