這個男人讓你的爬蟲開發效率提升8倍

Crossin先生發表於2018-06-28

他叫 Kenneth Reitz。現就職於知名雲服務提供商 DigitalOcean,曾是雲端計算平臺 Heroku 的 Python 架構師,目前 Github 上 Python 排行榜第一的使用者。(star 數超過了包括 google、tensorflow、django 等賬號)

這個男人讓你的爬蟲開發效率提升8倍

但他被更多路人所熟知的,恐怕還是他從一名技術肥宅逆襲成為文藝高富帥的勵志故事:

這個男人讓你的爬蟲開發效率提升8倍

看看他的個人主頁 www.kennethreitz.org 上的標籤:

這個男人讓你的爬蟲開發效率提升8倍

除了程式設計師,還有攝影師、音樂家、演講者……不怪在社交媒體上被稱為“程式設計師屆的網紅”。

然而,作為一個嚴肅的技術號,今天我們不是要八卦他的開掛人生,而是他的代表作品:Requests

(如果你還是想看八卦,給你個傳送門:誰說程式設計師不是潛力股?讓這位世界前五名的天才程式設計師來顛覆你三觀!


Requests 自我定義為 HTTP for Humans讓 HTTP 服務人類,或者說最人性化的 HTTP。言外之意,之前的那些 HTTP 庫太過繁瑣,都不是給人用的。(urllib 表示:怪我咯!)

儘管聽上去有些自大,但實際上它的的確確配得上這個評價,用過的都說好。我在文首搬出它的網紅作者,其實也僅僅是想吸引下你的眼球,然後告訴你,這真的是一個非常值得使用的庫。“提升8倍”雖是我胡謅的資料,開發效率的提升卻是槓槓滴。

我們先來看看它官網上的說法:

這個男人讓你的爬蟲開發效率提升8倍

其他同樣非常值得推薦的東西,如 PyCharm、Anaconda 等,我在推薦完之後往往得寫上一些教程,並在後續不斷解答使用者的問題。

而 Requests 卻不同,它提供了官方中文文件,其中包括了很清晰的“快速上手”和詳盡的高階用法和介面指南。以至於我覺得再把文件裡面內容搬運過來都是一種浪費。對於 Requests,要做的僅僅是兩件事:

  1. 告訴你有這樣一個工具,用來開發爬蟲很輕鬆
  2. 告訴你它的官方文件很好,你去讀就可以了

到此為止,本篇的目的已經達到。不過為了更有說服力,以及照顧到一些暫時還不需要但以後可能會去看的同學,我還是再囉嗦幾句,演示下 Requests 的威力。
安裝

pip install requests 即可

請求網頁

import requests
r = requests.get('http://httpbin.org/get')
print(r.status_code)
print(r.encoding)
print(r.text)
print(r.json())
複製程式碼

只需一行程式碼就可以完成 HTTP 請求。然後輕鬆獲取狀態碼、編碼、內容,甚至按 JSON 格式轉換資料。雖然這種簡單請求用別的庫也不復雜,但其實在內部,Requests 已幫你完成了新增 headers、自動解壓縮、自動解碼等操作。寫過課程中“查天氣”的同學,很可能踩過 gzip 壓縮的坑,用 Requests 就不存在了。如果你發現獲取的內容編碼不對,也只需要直接給 encoding 賦值正確的編碼後再訪問 text,就自動完成了編碼轉換,非常方便。

想要下載一張圖片

r = requests.get("https://www.baidu.com/img/bd_logo1.png")
with open('image.png', 'wb') as f:
    f.write(r.content)
複製程式碼

把返回結果的 content 儲存在檔案裡就行了。

提交一個 POST 請求,同時增加請求頭、cookies、代理等資訊(此處使用的代理地址不是真實的,測試程式碼時需去掉):

import requests
url = 'http://httpbin.org/post'
cookies = dict(some_cookie='working')
headers = {'user-agent': 'chrome'}
proxies = {
    'http':'http://10.10.1.10:3128',
    'https':'http://10.10.1.10:1080',
}
data = {'key1': 'value1', 'key2': 'value2'}
r = requests.get(
    url,
    data=data,
    cookies=cookies,
    proxies=proxies,
    headers=headers
)
print(r.text)
複製程式碼

上述幾個配置,如果使用自帶的 urllib 庫,程式碼要增加不少。

有時我們做爬蟲時,需要保持 cookie 一致,比如登入後才可訪問的頁面。用 Session 會話物件就可以實現:

s = requests.Session()
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print(r.text)
複製程式碼

另外提兩個常見小問題:
一個是關於 SSL,也就是 https 證照的問題。如果碰到 HTTPS 證照無效導致無法訪問的錯誤,可以嘗試加引數 verify=False 忽略:

r = requests.get('https://www.12306.cn/', verify=False)
print(r.text)
複製程式碼

另一個是對於設定了自動跳轉的頁面,預設會跟隨跳轉(但僅限於控制域名跳轉,無法跟隨 js 跳轉),也可以加引數 allow_redirects=False 禁止:

r = requests.get('http://github.com/', allow_redirects=False)
print(r.status_code)
print(r.text)
複製程式碼

上面兩個例子,把引數去掉試試看效果。

其他更多詳細內容不多說了,中文官網地址 cn.python-requests.org,順著看一遍,寫一遍,你就掌握這個爬蟲神器了。

對了,作者今年又釋出了個新的庫 Requests-HTML: HTML Parsing for Humans,用來對抓取到的 HTML 文字進行處理。這是要把 bs4 也一併幹掉的節奏啊。現在更新到 0.9 版本,密切關注中。

我們程式設計教室的不少演示專案如 電影票價查詢、就業崗位分析、IP 代理池 裡也都使用了 Requests 庫,想了解的請在公眾號(Crossin的程式設計教室)裡回覆 專案


════
其他文章及回答:

如何自學Python | 新手引導 | 精選Python問答 | Python單詞表 | 區塊鏈 | 人工智慧 | 雙11 | 嘻哈 | 爬蟲 | 排序演算法 | 我用Python | 高考 | 世界盃

歡迎搜尋及關注:Crossin的程式設計教室

這個男人讓你的爬蟲開發效率提升8倍

相關文章