Web Scraper如何翻頁

王平發表於2018-12-14

原文網址 : https://www.yuanrenxue.com/tricks/how-to-turnover-page-webscraper.html

前情提要：前面兩篇老猿簡單給Web Scraper配置了一個可以抓取時光網電影熱度排名的sitemap和講解了Web Scraper的執行原理，算是普及了一下，各位看官跟著操作一篇，應該對Web Scraper和Start URL、Selector有個初步認識了吧。本篇開始就以問題形式來對Web Scraper進行深入講解。

web scraper怎麼翻頁

上一篇我們配置的Sitemap，只能抓取第一頁，不能翻頁不能抓第二頁，這篇就來聊下Web Scraper如何翻頁。

實現翻頁只需要修改”Start URL”就可以搞定。我們上一篇在Start URL裡直接填的是首頁地址。如下圖：

web scraper 翻頁

因為這沒有告訴Web Scraper如何訪問第二頁，第三頁，所以要修改一下Start URL，Web Scraper規定了一個翻頁規則的，有幾種寫法，要根據抓取網站的URL規律的寫，請看下面。

規則一：
第一頁: ‘http://example.com/page/1’
第二頁: ‘http://example.com/page/2’
第三頁: ‘http://example.com/page/3’
如果要抓取網站的第一頁，第二頁，第三頁是如上形式，那麼Start URL翻頁就寫成 http://example.com/page/[1-3]
中括號裡表示從第一頁翻到第三頁。

規則二：
第一頁: ‘http://example.com/page/001’
第二頁: ‘http://example.com/page/002’
第三頁: ‘http://example.com/page/003’
Start URL翻頁就寫成 http://example.com/page/[001-3]
中括號裡表示從001 翻3頁到 003

規則三：
第一頁: ‘http://example.com/page/0’
第二頁: ‘http://example.com/page/10’
第三頁: ‘http://example.com/page/20’
Start URL翻頁就寫成 http://example.com/page/[0-3:10]
中括號裡表示從第1頁開始翻3三頁，每頁要乘10

Web scraper對這個規則三這種翻頁方式的支援好像有問題，豆瓣影評是這種的URL格式，我測試過，翻頁不成功。所以遇到這種翻頁格式還是要用其它辦法。

以上我們只舉了翻3頁的例子，如果你想抓50頁，那就要把上面的3改成50了，提示你要手動翻一翻看看抓取的網站是否有50頁，不要寫超出了。

基於以上翻頁規則，我們來看看時光網的URL是符號上面那個規則呢？
我們進入歡迎首頁，把頁面拉到最下面，點選第二頁，第三頁看看它的URL規律情況，如下圖：

翻頁演示

第一頁的URL是：
http://www.mtime.com/hotest/index.html
也可以看著URL是：
http://www.mtime.com/hotest/index-1.html
第二頁是：
http://www.mtime.com/hotest/index-2.html
第三頁是：
http://www.mtime.com/hotest/index-3.html
所以翻頁規則符合上面的規則一，應該把Start URL改寫成：http://www.mtime.com/hotest/index-[1-3].html
如果是翻50頁，就是：
http://www.mtime.com/hotest/index-[1-50].html

Web Scraper翻頁就是這樣的，要修改Start URL。好了，現在你重新Create sitemap再像上一篇一樣重新配置一次，試試看能不能翻頁抓取了吧。

PS：當之前執行可以的翻頁不起作用時，要去檢查要抓取翻頁URL是否變了，因為對方網站改版，頁面優化之類的，可能會把URL給改變了，這時要重新去找翻頁規律。

上面介紹的是根據URL的規則來翻頁，有些網頁翻頁是ajax的，這種方法就行不通了，需要使用另外的翻頁方法，下一篇再來介紹。

Web Scraper系列文章：

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

web scraper
2021-05-16
Web
Web Scraper教程
2018-12-11
Web
Web Scraper工作原理
2018-12-13
Web
Web Scraper簡單配置方法
2018-12-12
Web
基於Chrome的Easy Scraper外掛抓取網頁
2024-04-06
Chrome網頁
如何編寫翻頁函式？
2022-03-13
函式
如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
2019-01-12
Web
[Web翻譯]我們如何在 GitHub 使用 Web 元件
2021-05-17
WebGithub元件
Web 頁面如何新增水印？
2020-06-15
Web
flask 分頁 | 翻頁
2024-11-01
Flask
翻頁後，如何確定列表被重新整理？
2020-12-24
win10系統下平板模式ppt如何翻頁_win10平板模式下ppt翻頁步驟
2020-06-08
Win10模式
Java爬蟲翻頁
2024-07-09
Java爬蟲
Web 頁面如何實現動畫效果
2023-02-03
Web動畫
OneClock的翻頁時鐘效果是如何實現的
2019-03-02
PremierePro使用教程:如何在PremierePro中製作出翻頁效果？
2022-08-08
REM
web頁面
2020-12-28
Web
什麼是DOM？如何構建web頁面
2019-01-17
Web
Elevate Your Lead Generation Game with Maps Scraper AI
2024-05-25
GAMAI
python爬蟲怎麼翻頁
2023-11-10
Python爬蟲
監聽滾動，上下翻頁
2020-11-25
如何實現報表滾動到底部進行翻頁的效果
2020-07-29
如何檢測前端頁面的安全性？怎樣避免web頁面攻擊？
2021-06-16
前端Web
如何用手機測試自己寫的web頁面
2019-06-11
Web
Web頁面如何進行視覺化埋點（三）
2021-06-08
Web視覺化
Web頁面如何進行視覺化埋點（一）
2021-05-25
Web視覺化
Web頁面如何進行視覺化埋點（二）
2021-05-27
Web視覺化
Flutter: BottomNavigationBar + PageView 翻頁時崩潰
2018-08-23
FlutterNavigationView
web頁面測試
2018-05-11
Web
《Web 推送通知》系列翻譯 | 引言&概覽
2018-08-27
Web
翻譯 - ASP.NET Core 基本知識 - Web 主機 (Web Host)
2021-01-25
ASP.NETWeb
JAVA爬蟲使用Selenium自動翻頁
2024-05-15
Java爬蟲
使用transform製作書本翻頁效果
2020-11-06
ORM
微軟輸入法怎麼翻頁
2020-10-03
微軟
歷經9載，老牌頁遊《奧奇傳說》如何實現IP翻紅？
2021-05-12
web自動化–如何在不同頁面間遊刃有餘
2018-10-18
Web
web 頁面如何實現 echarts 統計圖的列印匯出？
2020-06-15
WebEcharts
移動web頁面如何自動探測電話號碼？
2024-11-23
Web

Web Scraper如何翻頁

相關文章