【Python3網路爬蟲開發實戰】6-Ajax資料爬取-3-Ajax結果提取

崔慶才丨靜覓發表於2018-03-28

原文網址 : https://juejin.im/post/5abb3a516fb9a028d207fbab

這裡仍然以微博為例，接下來用Python來模擬這些Ajax請求，把我發過的微博爬取下來。

1. 分析請求

開啟Ajax的XHR過濾器，然後一直滑動頁面以載入新的微博內容。可以看到，會不斷有Ajax請求發出。

選定其中一個請求，分析它的引數資訊。點選該請求，進入詳情頁面，如圖6-11所示。

圖6-11 詳情頁面

可以發現，這是一個GET型別的請求，請求連結為[https://m.weibo.cn/api/container/getIndex?type=uid&value=2830678474&containerid=1076032830678474&page=2)。請求的引數有4個：type、value、containerid和page。

隨後再看看其他請求，可以發現，它們的type、value和containerid始終如一。type始終為uid，value的值就是頁面連結中的數字，其實這就是使用者的id。另外，還有containerid。可以發現，它就是107603加上使用者id。改變的值就是page，很明顯這個引數是用來控制分頁的，page=1代表第一頁，page=2代表第二頁，以此類推。

2. 分析響應

隨後，觀察這個請求的響應內容，如圖6-12所示。

圖6-12 響應內容

這個內容是JSON格式的，瀏覽器開發者工具自動做了解析以方便我們檢視。可以看到，最關鍵的兩部分資訊就是cardlistInfo和cards：前者包含一個比較重要的資訊total，觀察後可以發現，它其實是微博的總數量，我們可以根據這個數字來估算分頁數；後者則是一個列表，它包含10個元素，展開其中一個看一下，如圖6-13所示。

圖6-13 列表內容

可以發現，這個元素有一個比較重要的欄位mblog。展開它，可以發現它包含的正是微博的一些資訊，比如attitudes_count（贊數目）、comments_count（評論數目）、reposts_count（轉發數目）、created_at（釋出時間）、text（微博正文）等，而且它們都是一些格式化的內容。

這樣我們請求一個介面，就可以得到10條微博，而且請求時只需要改變page引數即可。

這樣的話，我們只需要簡單做一個迴圈，就可以獲取所有微博了。

3. 實戰演練

這裡我們用程式模擬這些Ajax請求，將我的前10頁微博全部爬取下來。

首先，定義一個方法來獲取每次請求的結果。在請求時，page是一個可變引數，所以我們將它作為方法的引數傳遞進來，相關程式碼如下：

12345678910111213141516171819202122232425from urllib.parse import urlencodeimport requestsbase_url = 'https://m.weibo.cn/api/container/getIndex?' headers = {    'Host': 'm.weibo.cn',    'Referer': 'https://m.weibo.cn/u/2830678474',    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',    'X-Requested-With': 'XMLHttpRequest',} def get_page(page):    params = {        'type': 'uid',        'value': '2830678474',        'containerid': '1076032830678474',        'page': page    }    url = base_url + urlencode(params)    try:        response = requests.get(url, headers=headers)        if response.status_code == 200:            return response.json()    except requests.ConnectionError as e:        print('Error', e.args)複製程式碼

首先，這裡定義了base_url來表示請求的URL的前半部分。接下來，構造引數字典，其中type、value和containerid是固定引數，page是可變引數。接下來，呼叫urlencode()方法將引數轉化為URL的GET請求引數，即類似於type=uid&value=2830678474&containerid=1076032830678474&page=2這樣的形式。隨後，base_url與引數拼合形成一個新的URL。接著，我們用requests請求這個連結，加入headers引數。然後判斷響應的狀態碼，如果是200，則直接呼叫json()方法將內容解析為JSON返回，否則不返回任何資訊。如果出現異常，則捕獲並輸出其異常資訊。

隨後，我們需要定義一個解析方法，用來從結果中提取想要的資訊，比如這次想儲存微博的id、正文、贊數、評論數和轉發數這幾個內容，那麼可以先遍歷cards，然後獲取mblog中的各個資訊，賦值為一個新的字典返回即可：

1234567891011121314from pyquery import PyQuery as pq def parse_page(json):    if json:        items = json.get('data').get('cards')        for item in items:            item = item.get('mblog')            weibo = {}            weibo['id'] = item.get('id')            weibo['text'] = pq(item.get('text')).text()            weibo['attitudes'] = item.get('attitudes_count')            weibo['comments'] = item.get('comments_count')            weibo['reposts'] = item.get('reposts_count')            yield weibo複製程式碼

這裡我們藉助pyquery將正文中的HTML標籤去掉。

最後，遍歷一下page，一共10頁，將提取到的結果列印輸出即可：

if __name__ == '__main__':    for page in range(1, 11):        json = get_page(page)        results = parse_page(json)        for result in results:            print(result)複製程式碼

另外，我們還可以加一個方法將結果儲存到MongoDB資料庫：

123456789from pymongo import MongoClient client = MongoClient()db = client['weibo']collection = db['weibo'] def save_to_mongo(result):    if collection.insert(result):        print('Saved to Mongo')複製程式碼

這樣所有功能就實現完成了。執行程式後，樣例輸出結果如下：

1234{'id': '4134879836735238', 'text': '驚不驚喜，刺不刺激，意不意外，感不感動', 'attitudes': 3, 'comments': 1, 'reposts': 0}Saved to Mongo{'id': '4143853554221385', 'text': '曾經夢想仗劍走天涯，後來過安檢給收走了。分享單曲 遠走高飛', 'attitudes': 5, 'comments': 1, 'reposts': 0}Saved to Mongo複製程式碼

檢視一下MongoDB，相應的資料也被儲存到MongoDB，如圖6-14所示。

圖6-14 儲存結果

這樣，我們就順利通過分析Ajax並編寫爬蟲爬取下來了微博列表，最後，給出本節的程式碼地址：github.com/Python3WebS…。

本節的目的是為了演示Ajax的模擬請求過程，爬取的結果不是重點。該程式仍有很多可以完善的地方，如頁碼的動態計算、微博檢視全文等，若感興趣，可以嘗試一下。

通過這個例項，我們主要學會了怎樣去分析Ajax請求，怎樣用程式來模擬抓取Ajax請求。瞭解了抓取原理之後，下一節的Ajax實戰演練會更加得心應手。

本資源首發於崔慶才的個人部落格靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

【Python3網路爬蟲開發實戰】6-Ajax資料爬取-1-什麼是Ajax
2019-03-01
Python爬蟲
【Python3網路爬蟲開發實戰】6-Ajax資料爬取-4-分析Ajax爬取今日頭條街拍美圖
2019-02-19
Python爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
Python3網路爬蟲開發實戰
2021-04-15
Python爬蟲
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
python3網路爬蟲開發實戰pdf
2021-11-30
Python爬蟲
《Python3網路爬蟲開發實戰》開源啦！
2019-10-23
Python爬蟲
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
[Python3網路爬蟲開發實戰] Charles 的使用
2019-12-08
Python爬蟲
[Python3網路爬蟲開發實戰] --Splash的使用
2019-06-10
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
《Python3 網路爬蟲開發實戰》—學習筆記
2019-07-30
Python爬蟲筆記
Python3網路爬蟲開發實戰（第二版）
2022-01-15
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
讀書筆記：《Python3網路爬蟲開發實戰》——第2章：爬蟲基礎
2019-04-09
筆記Python爬蟲
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
Python 3網路爬蟲開發實戰
2021-04-28
Python爬蟲
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
面前最全《崔慶才python3網路爬蟲開發實戰》
2019-02-28
Python爬蟲
python3 網路爬蟲開發實戰貓眼top100
2020-02-15
Python爬蟲
《Python3網路爬蟲開發實戰程式碼》基本庫使用
2019-05-05
Python爬蟲
Python3網路爬蟲開發實戰——第1章開發環境
2022-02-02
Python爬蟲開發環境
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用
2019-02-28
Python爬蟲
《Python3網路爬蟲開發實戰》抽獎贈書活動
2018-06-13
Python爬蟲
python3網路爬蟲開發實戰【高清掃描帶目錄】
2019-08-18
Python爬蟲
【閱讀筆記】《Python3網路爬蟲開發實戰》PDF文件
2020-01-14
筆記Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 1-HTTP基本原理
2018-03-08
Python爬蟲HTTP
《網路爬蟲開發實戰案例》筆記
2020-08-10
爬蟲筆記
Python網路爬蟲實戰：爬取知乎話題下 18934 條回答資料
2019-01-17
Python爬蟲
Python3網路爬蟲快速入門實戰解析
2020-04-23
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 5-代理的基本原理
2019-02-17
Python爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
Python3網路爬蟲開發實戰——第3章基本庫的使用
2019-02-25
Python爬蟲

【Python3網路爬蟲開發實戰】6-Ajax資料爬取-3-Ajax結果提取

1. 分析請求

2. 分析響應

3. 實戰演練

相關文章