pyspider 爬蟲教程（3）：使用 PhantomJS 渲染帶 JS 的頁面

發表於2016-09-05

在上兩篇教程中，我們學習了怎麼從 HTML 中提取資訊，也學習了怎麼處理一些請求複雜的頁面。但是有一些頁面，它實在太複雜了，無論是分析 API 請求的地址，還是渲染時進行了加密，讓直接抓取請求非常麻煩。這時候就是 PhantomJS 大顯身手的時候了。

在使用 PhantomJS 之前，你需要安裝它（安裝文件）。當你安裝了之後，在執行 all 模式的 pyspider 時就會自動啟用了。當然，你也可以在 demo.pyspider.org 上嘗試。

使用 PhantomJS

當 pyspider 連上 PhantomJS 代理後，你就能通過在 self.crawl 中新增 fetch_type='js' 的引數，開啟使用 PhantomJS 抓取。例如，在教程二中，我們嘗試抓取的 http://movie.douban.com/explore 就可以通過 PhantomJS 直接抓取：

class Handler(BaseHandler):
    def on_start(self):
        self.crawl('http://movie.douban.com/explore',
                   fetch_type='js', callback=self.phantomjs_parser)

    def phantomjs_parser(self, response):
        return [{
            "title": "".join(
                s for s in x('p').contents() if isinstance(s, basestring)
            ).strip(),
            "rate": x('p strong').text(),
            "url": x.attr.href,
        } for x in response.doc('a.item').items()]

class Handler(BaseHandler):

def on_start(self):

self.crawl('http://movie.douban.com/explore',

fetch_type='js', callback=self.phantomjs_parser)

def phantomjs_parser(self, response):

return [{

"title": "".join(

s for s in x('p').contents() if isinstance(s, basestring)

).strip(),

"rate": x('p strong').text(),

"url": x.attr.href,

} for x in response.doc('a.item').items()]

我在這裡使用了一些 PyQuery 的 API，你可以在 PyQuery complete API 獲得完整的 API 手冊。

在頁面上執行自定義指令碼

你會發現，在上面我們使用 PhantomJS 抓取的豆瓣熱門電影只有 20 條。當你點選『載入更多』時，能獲得更多的熱門電影。為了獲得更多的電影，我們可以使用 self.crawl 的 js_script 引數，在頁面上執行一段指令碼，點選載入更多：

def on_start(self):
        self.crawl('http://movie.douban.com/explore#more',
                   fetch_type='js', js_script="""
                   function() {
                     setTimeout("$('.more').click()", 1000);
                   }""", callback=self.phantomjs_parser)

def on_start(self):

self.crawl('http://movie.douban.com/explore#more',

fetch_type='js', js_script="""

function() {

setTimeout("$('.more').click()", 1000);

}""", callback=self.phantomjs_parser)

這個指令碼預設在頁面載入結束後執行，你可以通過 js_run_at 引數修改這個行為

由於是 AJAX 非同步載入的，在頁面載入完成時，第一頁的電影可能還沒有載入完，所以我們用 setTimeout 延遲 1 秒執行。

你可以間隔一定時間，多次點選，這樣可以載入更多頁。

由於相同 URL （實際是相同 taskid）的任務會被去重，所以這裡為 URL 加了一個 #more

上面兩個例子，都可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 中找到。

Python爬蟲教程-26-Selenium + PhantomJS
2018-09-06
Python爬蟲JS
pyspider 爬蟲教程（2）：AJAX 和 HTTP
2016-09-04
IDE爬蟲HTTP
pyspider 爬蟲教程（二）：AJAX 和 HTTP
2015-01-10
IDE爬蟲HTTP
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
queryList 配合 PhantomJS 外掛採集 JavaScript 動態渲染的頁面
2021-01-15
JSJavaScript
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Python網路爬蟲 - Phantomjs, selenium/Chromedirver使用
2019-01-22
Python爬蟲JSChrome
pyspider 爬蟲教程（1）：HTML 和 CSS 選擇器
2016-09-04
IDE爬蟲HTMLCSS
爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南
2016-03-28
爬蟲JavaScript
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用
2019-02-28
Python爬蟲
反爬蟲之檢測 PhantomJS 訪客
2016-09-26
爬蟲JS
Python3.x：Selenium+PhantomJS爬取帶Ajax、Js的網頁及獲取JS返回值
2024-04-12
PythonJS網頁
動態ip代理教你：如何用爬蟲實現前端頁面渲染
2019-01-16
爬蟲前端
【爬蟲】網頁抓包工具--Charles的使用教程
2018-12-19
爬蟲網頁
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
爬取js渲染過的頁面（爬取一個婚慶網站為例）
2017-11-22
JS網站
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
高效率爬蟲框架之 pyspider
2018-07-06
爬蟲框架IDE
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-3-Splash負載均衡配置
2018-03-30
Python爬蟲負載
用Node寫頁面爬蟲的工具集
2018-10-24
爬蟲
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
那些年，我爬過的北科(六)——反反爬蟲之js渲染
2019-03-01
爬蟲JS
網路爬蟲剖析，以Pyspider為例
2015-03-04
爬蟲IDE
pixi.js持續渲染頁面
2020-11-30
JS
使用 Nuxt 3 的 defineRouteRules 進行頁面級別的混合渲染
2024-08-12
UX
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
手把手教你寫網路爬蟲（5）：PhantomJS實戰
2018-05-06
爬蟲JS
python爬蟲-抓取騰訊招聘資訊頁面
2017-12-21
Python爬蟲
使用puppeteer爬蟲，檢查頁面靜態資源丟失
2019-02-16
爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
Python 自用程式碼（scrapy多級頁面(三級頁面)爬蟲）
2017-05-09
Python爬蟲
Next.js頁面渲染的優化方案
2019-01-26
JS優化
[Python爬蟲] 在Windows下安裝PIP+Phantomjs+Selenium
2015-08-19
Python爬蟲WindowsJS
記錄一次使用jsoup爬取頁面
2020-12-23
JS

pyspider 爬蟲教程（3）：使用 PhantomJS 渲染帶 JS 的頁面

使用 PhantomJS

在頁面上執行自定義指令碼

相關文章