pyspider 爬蟲教程（二）：AJAX 和 HTTP

足兆叉蟲發表於2015-01-10

原文網址 : https://segmentfault.com/a/1190000002477870

在上一篇教程中，我們使用 self.crawl API 抓取豆瓣電影的 HTML 內容，並使用 CSS 選擇器解析了一些內容。不過，現在的網站通過使用 AJAX 等技術，在你與伺服器互動的同時，不用重新載入整個頁面。但是，這些互動手段，讓抓取變得稍微難了一些：你會發現，這些網頁在抓回來後，和瀏覽器中的並不相同。你需要的資訊並不在返回 HTML 程式碼中。

在這一篇教程中，我們會討論這些技術和抓取他們的方法。（英文版：AJAX-and-more-HTTP）

AJAX

AJAX 是 Asynchronous JavaScript and XML（非同步的 JavaScript 和 XML）的縮寫。AJAX 通過使用原有的 web 標準元件，實現了在不重新載入整個頁面的情況下，與伺服器進行資料互動。例如在新浪微博中，你可以展開一條微博的評論，而不需要重新載入，或者開啟一個新的頁面。但是這些內容並不是一開始就在頁面中的（這樣頁面就太大了），而是在你點選的時候被載入進來的。這就導致了你抓取這個頁面的時候，並不能獲得這些評論資訊（因為你沒有『展開』）。

AJAX 的一種常見用法是使用 AJAX 載入 JSON 資料，然後在瀏覽器端渲染。如果能直接抓取到 JSON 資料，會比 HTML 更容易解析。

當一個網站使用了 AJAX 的時候，除了用 pyspider 抓取到的頁面和瀏覽器看到的不同以外。你在瀏覽器中開啟這樣的頁面，或者點選『展開』的時候，常常會看到『載入中』或者類似的圖示/動畫。例如，當你嘗試抓取：http://movie.douban.com/explore

douban explore

你會發現電影是『載入中...』

找到真實的請求

由於 AJAX 實際上也是通過 HTTP 傳輸資料的，所以我們可以通過 Chrome Developer Tools 找到真實的請求，直接發起真實請求的抓取就可以獲得資料了。

開啟一個新視窗
按 Ctrl+Shift+I (在 Mac 上請按 Cmd+Opt+I) 開啟開發者工具。
切換到網路（ Netwotk 皮膚）
在視窗中開啟 http://movie.douban.com/explore

在頁面載入的過程中，你會在皮膚中看到所有的資源請求。

douban explore network panel

AJAX 一般是通過 XMLHttpRequest 物件介面傳送請求的，XMLHttpRequest 一般被縮寫為 XHR。點選網路皮膚上漏斗形的過濾按鈕，過濾出 XHR 請求。挨個檢視每個請求，通過訪問路徑和預覽，找到包含資訊的請求：http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

douban explore xhr preview

在豆瓣這個例子中，XHR 請求並不多，可以挨個檢視來確認。但在 XHR 請求較多的時候，可能需要結合觸發動作的時間，請求的路徑等資訊幫助在大量的請求中找到包含資訊的關鍵請求。這需要抓取或者前端的相關經驗。所以，有一個我一直在提的觀點，學習抓取的最好方法是：學會寫網站。

現在可以在新視窗中開啟 http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0，你會看到包含電影資料的 JSON 原始資料。推薦安裝 JSONView（Firfox版）外掛，這樣可以看到更好看的 JSON 格式，展開摺疊列等功能。然後，我們根據 JSON 資料，編寫一個提取電影名和評分的指令碼：

pythonclass Handler(BaseHandler):
    def on_start(self):
        self.crawl('http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',
                   callback=self.json_parser)

    def json_parser(self, response):
        return [{
            "title": x['title'],
            "rate": x['rate'],
            "url": x['url']
        } for x in response.json['subjects']]

你可以使用 response.json 將結果轉為一個 python 的 dict 物件

你可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 獲得完整的程式碼，並進行除錯。指令碼中還有一個使用 PhantomJS 渲染的提取版本，將會在下一篇教程中介紹。

HTTP

HTTP 是用來傳輸網頁內容的協議。在前面的教程中，我們已經通過 self.crawl 介面提交了 URL 進行了抓取。這些抓取就是通過 HTTP 協議傳輸的。

在抓取過程中，你可能會遇到類似 403 Forbidden，或者需要登入的情況，這時候你就需要正確的 HTTP 引數進行抓取了。

一個典型的 HTTP 請求包如下，這個請求是發往 http://example.com/ 的：

httpGET / HTTP/1.1
Host: example.com
Connection: keep-alive
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36
Referer: http://en.wikipedia.org/wiki/Example.com
Accept-Encoding: gzip, deflate, sdch
Accept-Language: zh-CN,zh;q=0.8
If-None-Match: "359670651"
If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT

請求的第一行包含 method, path 和 HTTP 協議的版本資訊

餘下的行被稱為 header，是以 key: value 的形式呈現的

如果是 POST 請求，在請求結尾可能還會有 body 內容

你可以通過前面用過的 Chrome Developer Tools 工具檢視到這些資訊：

request headers

在大多數時候，使用正確的 method, path, headers 和 body 總是能抓取到你需要的資訊的。

HTTP Method

HTTP Method 告訴伺服器對 URL 資源期望進行的操作。例如在開啟一個 URL 的時候使用的是 GET 方式，而在提交資料的時候一般使用 POST。

TODO： need example here

HTTP Headers

HTTP Headers 是請求所帶的一個引數列表，你可以在這裡找到完整的常用 Headers 列表。一些常用的需要注意的有：

User-Agent

UA 是標識你使用的瀏覽器，或抓取程式的一段字串。pyspider 使用的預設 UA 是 pyspider/VERSION (+http://pyspider.org/)。網站常用這個字串來區分使用者的作業系統和瀏覽器，以及判斷對方是否是爬蟲。所以在抓取的時候，常常會對 UA 進行偽裝。

在 pyspider 中，你可以通過 self.crawl(URL, headers={'User-Agent': 'pyspider'})，或者是 crawl_config = {'headers': {'User-Agent': 'xxxx'}} 來指定指令碼級別的 UA。詳細請檢視 API 文件。

Referer

Referer 用於告訴伺服器，你訪問的上一個網頁是什麼。常常被用於防盜鏈，在抓取圖片的時候可能會用到。

X-Requested-With

當使用 XHR 傳送 AJAX 請求時會帶上的 Header，常被用於判斷是不是 AJAX 請求。例如在北郵人論壇中，你需要：

python    def on_start(self):
        self.crawl('http://bbs.byr.cn/board/Python',
                   headers={'X-Requested-With': 'XMLHttpRequest'},
                   callback=self.index_page)

帶有 headers={'X-Requested-With': 'XMLHttpRequest'} 才能抓取到內容。

HTTP Cookie

雖然 Cookie 只是 HTTP Header 中的一個，但是因為非常重要，但是拿出來說一下。Cookie 被 HTTP 請求用來區分、追蹤使用者的身份，當你在一個網站登入的時候，就是通過寫入 Cookie 欄位來記錄登入狀態的。

當遇到需要登入的網站，你需要通過設定 Cookie 引數，來請求需要登入的內容。Cookie 可以通過開發者工具的請求皮膚，或者是資源皮膚中獲得。在 pyspider 中，你也可以使用 response.cookies 獲得返回的 cookie，並使用 self.crawl(URL, cookie={'key': 'value'}) 來設定請求的 Cookie 引數。

原文：http://blog.binux.me/2015/01/pyspider-tutorial-level-2-ajax-and-more-http/

Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
高效率爬蟲框架之 pyspider
2018-07-06
爬蟲框架IDE
Python爬蟲入門教程 29-100 手機APP資料抓取 pyspider
2019-01-23
Python爬蟲APPIDE
爬蟲入門(HTTP和HTTPS)
2018-12-09
爬蟲HTTP
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
爬蟲如何運用 http 代理
2019-11-12
爬蟲HTTP
HTTP爬蟲被封如何處理？
2022-06-10
HTTP爬蟲
爬蟲為什麼需要HTTP？
2022-06-08
爬蟲HTTP
HTTP對爬蟲有何作用？
2022-06-15
HTTP爬蟲
新手爬蟲，教你爬掘金（二）
2019-03-03
爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
java 爬蟲大型教程（一）
2019-01-24
Java爬蟲
網路爬蟲之關於爬蟲 http 代理的常見使用方式
2020-04-28
爬蟲HTTP
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python爬蟲教程-24-資料提取-BeautifulSoup4（二）
2018-09-06
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
HTTP和AJAX重點知識
2019-04-10
HTTP
python爬蟲基礎與http協議
2019-03-25
Python爬蟲HTTP協議
全棧 – 7 爬蟲 Http請求和Chrome
2019-02-10
全棧爬蟲HTTPChrome
HTTP代理如何助力爬蟲採集工作？
2022-05-16
HTTP爬蟲
新手爬蟲使用http代理有哪些方式？
2021-09-11
爬蟲HTTP
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲程式最佳化要點—附Python爬蟲影片教程
2020-10-15
爬蟲Python
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲學習日記（二）
2018-11-28
爬蟲
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
為什麼使用 HTTP 爬蟲代理更安全？
2020-04-21
HTTP爬蟲