Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

weixin_34234823發表於2017-12-15

原文網址 : https://blog.csdn.net/weixin_34234823/article/details/86887266

Python爬蟲

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒……

又比如知乎關注的人列表頁面：

我複製了其中兩個人暱稱的 xpath：

//*[@id="Popover-35130-11238-toggle"]/a
//*[@id="Popover-35130-42416-toggle"]/a

竟然需要 ID 這種噁心的東西，規律失效。

我們以豆瓣勵志分類下的電影為例，連結在這裡：
https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97

上面的標記應該是“分類”，而不是“排行榜”，更正一下。

首先要告訴你的是，這種動態載入的頁面，一般資料會在Network的 JS或者 XHR 類目裡。

我們開啟開發者工具，看這一頁的 XHR裡沒有任何檔案，然後點選載入更多按鈕，看它給我們返回什麼資訊。

咦？返回了一個新的檔案，出於好奇，我們有必要看看究竟

右鍵點選 >> Open in new tab

有的網站返回的 JS、XHR 資訊比較多，需要你去嘗試和篩選。

這個 json 頁面看起來就很親切了，包含電影名稱、導演、評分、演員、連結等資料。最關鍵的是，我仔細看了一遍頁面後發現，這一頁的電影資訊，正好是新載入出來的所有電影的資訊。

你的網頁看 json 很亂？不要著急，那是你的chrome沒有安裝jsonview這個外掛。證號為你準備好了，子按下方的雲盤下載、安裝就好：

連結:http://pan.baidu.com/s/1nvefj0t 密碼:13pm

好了，又載入了兩次，不出意料地又載入出了兩頁 XHR 資訊，於是，滿懷期待地分別開啟它們。新載入的兩個頁面，和網頁顯示的電影資訊完全相同。

我們再來看看 XHR 載入的這幾個頁面的 url：

#第二頁
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=20

#第三頁
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=40

#第四頁
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=60

比較後就可以輕鬆發現，這些頁面的 url 是有規律的：只有最後 start= 後面的數字在變化，而且是以20為步長遞增的，20正好對應每次載入出來的電影數量。

於是我們可以輕鬆地寫出頁面迴圈來爬取：

for a in range(3):    
  url='https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)

  # 用 a*20 表示每個頁面按 20 的步長遞增，只示例3個頁面，你可以按需求增加。

按照前面的套路寫出程式碼，並得到結果：

import requests
import json
import time

for a in range(3):
    url_visit = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)
    file = requests.get(url_visit).json()   #這裡跟之前的不一樣，因為返回的是 json 檔案
    time.sleep(2)

    for i in range(20):
        dict=file['data'][i]   #取出字典中 'data' 下第 [i] 部電影的資訊
        urlname=dict['url']
        title=dict['title']
        rate=dict['rate']
        cast=dict['casts']
    
        print('{}  {}  {}  {}\n'.format(title,rate,'  '.join(cast),urlname))

爬取的資料如下：

解釋一下程式碼中的一些細節：

file = requests.get(url).json()

之前我們用的 .text 是需要網頁返回文字的資訊,而這裡返回的是 json檔案所以用 .json()

dict=file['data'][i] 
urlname=dict['url']

取出字典中的值，需要在方括號中指明值對應的鍵

'   '.join(cast)

因為有多名演員，這裡用了 join() 函式，在字串中間加入空格分隔。

當然，你也可以把爬下來的資訊存到本地：

對電影評分進行排序，不久得到了所有的高分電影嗎？

白白~

scrapy入門：豆瓣電影top250爬取
2019-02-16
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
Python爬蟲入門【10】：電子書多執行緒爬取
2019-07-31
Python爬蟲執行緒
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
Python爬取分析豆瓣電影Top250
2018-09-07
Python
使用python爬取豆瓣電影TOP250
2021-03-11
Python
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
python-爬蟲入門
2024-09-22
Python爬蟲
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單
2023-04-05
Python爬蟲CSS
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
scrapy爬取豆瓣電影資料
2021-09-11
python更換代理爬取豆瓣電影資料
2019-08-03
Python
專案之爬蟲入門（豆瓣TOP250）
2020-11-19
爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
Python《成功破解簡單的動態載入的爬蟲》
2020-12-20
Python爬蟲
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
爬蟲入門
2024-04-13
爬蟲
騰訊動漫爬蟲與動態隨機載入反爬
2018-04-24
爬蟲隨機
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
三分鐘爬蟲入門
2020-05-18
爬蟲
Python 從零開始爬蟲(六)——動態爬取解決方案之手動分析
2018-05-09
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
Python爬蟲例項：爬取貓眼電影——破解字型反爬
2019-02-26
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

相關文章