爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南

發表於2016-03-28

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。瀏覽器知道如何處理這些程式碼並將其展現出來，但是我們的程式該如何處理這些程式碼呢？接下來，我將介紹一個簡單粗暴的方法來抓取含有 JavaScript 程式碼的網頁資訊。

大多數人利用lxml和BeautifulSoup這兩個包來提取資料。本文中我將不會介紹任何爬蟲框架的內容，因為我只利用最基礎的lxml包來處理資料。也許你們會好奇為啥我更喜歡lxml。那是因為lxml利用元素遍歷法來處理資料而不是像BeautifulSoup一樣利用正規表示式來提取資料。本文中我將介紹一個非常有趣的案例——之前我突然發現我的文章出現在最近的 Pycoders weekly issue 147中，因此我想爬取 Pycoders weekly 中所有檔案的連結。

很明顯，這是一個含有 JavaScript 渲染的網頁。我想要抓取網頁中所有的檔案資訊和相應的連結資訊。那麼我該怎麼處理呢？首先，我們利用 HTTP 方法無法獲得任何資訊。

import requests
from lxml import html
# storing response
response = requests.get('http://pycoders.com/archive')
# creating lxml tree from response body
tree = html.fromstring(response.text)
# Finding all anchor tags in response
print tree.xpath('//div[@class="campaign"]/a/@href')

import requests

from lxml import html

# storing response

response = requests.get('http://pycoders.com/archive')

# creating lxml tree from response body

tree = html.fromstring(response.text)

# Finding all anchor tags in response

print tree.xpath('//div[@class="campaign"]/a/@href')

當我們執行上述程式碼時，我們無法獲得任何資訊。這怎麼可能呢？網頁中明明顯示那麼多檔案的資訊。接下來我們需要考慮如何解決這個問題？

如何獲取內容資訊？

接下來我將介紹如何利用 Web kit 從 JS 渲染網頁中獲取資料。什麼是 Web kit呢？Web kit 可以實現瀏覽器所能處理的任何事情。對於某些瀏覽器來說，Web kit就是其底層的網頁渲染工具。Web kit 是QT庫的一部分，因此如果你已經安裝QT和PyQT4庫，那麼你可以直接執行之。

你可以利用命令列來安裝該軟體庫：

sudo apt-get install python-qt4

1	sudo apt-get install python-qt4

現在所有的準備工作已經完成，接下來我們將使用一個全新的方法來提取資訊。

解決方案

我們首先通過 Web kit 傳送請求資訊，然後等待網頁被完全載入後將其賦值到某個變數中。接下來我們利用lxml從 HTML 資料中提取出有效的資訊。這個過程需要一點時間，不過你會驚奇地發現整個網頁被完整地載入下來了。

import sys
from PyQt4.QtGui import *
from PyQt4.Qtcore import *
from PyQt4.QtWebKit import *
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()

import sys

from PyQt4.QtGui import *

from PyQt4.Qtcore import *

from PyQt4.QtWebKit import *

class Render(QWebPage):

def __init__(self, url):

self.app = QApplication(sys.argv)

QWebPage.__init__(self)

self.loadFinished.connect(self._loadFinished)

self.mainFrame().load(QUrl(url))

self.app.exec_()

def _loadFinished(self, result):

self.frame = self.mainFrame()

self.app.quit()

類Render可以用來渲染網頁，當我們新建一個Render類時，它可以將url中的所有資訊載入下來並存到一個新的框架中。

url = 'http://pycoders.com/archive/'
# This does the magic.Loads everything
r = Render(url)
# Result is a QString.
result = r.frame.toHtml()

url = 'http://pycoders.com/archive/'

# This does the magic.Loads everything

r = Render(url)

# Result is a QString.

result = r.frame.toHtml()

利用以上的程式碼我們將 HTML 結果儲存到變數result中，由於lxml無法直接處理該特殊的字串資料，因此我們需要轉換資料格式。

# QString should be converted to string before processed by lxml
formatted_result = str(result.toAscii())
# Next build lxml tree from formatted_result
tree = html.fromstring(formatted_result)
# Now using correct Xpath we are fetching URL of archives
archive_links = tree.xpath('//div[@class="campaign"]/a/@href')
print archive_links

# QString should be converted to string before processed by lxml

formatted_result = str(result.toAscii())

# Next build lxml tree from formatted_result

tree = html.fromstring(formatted_result)

# Now using correct Xpath we are fetching URL of archives

archive_links = tree.xpath('//div[@class="campaign"]/a/@href')

print archive_links

利用上述程式碼我們可以獲得所有的檔案連結資訊，接下來我們可以利用這些 Render和這些URL連結來提取文字內容資訊。Web kit 提供了一個強大的網頁渲染工具，我們可以利用這個工具從 JS 渲染的網頁中抓取出有效的資訊。

總結

本文中我介紹了一個如何從 JS 渲染的網頁中抓取資訊的有效方法，這個工具雖然速度比較慢，但是卻非常簡單粗暴。我希望你會喜歡這篇文章。現在你可以將該方法運用到任何你覺得難以處理的網頁中。

祝一切順利。

動態ip代理教你：如何用爬蟲實現前端頁面渲染
2019-01-16
爬蟲前端
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
編寫web2.0爬蟲——頁面抓取部分
2020-10-09
Web爬蟲
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
php使用QueryList輕鬆採集JavaScript動態渲染頁面
2019-02-16
PHPJavaScript
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用
2019-02-28
Python爬蟲
queryList 配合 PhantomJS 外掛採集 JavaScript 動態渲染的頁面
2021-01-15
JSJavaScript
網路爬蟲抓取邊界的法律與技術思考
2019-11-19
爬蟲
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-3-Splash負載均衡配置
2018-03-30
Python爬蟲負載
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
動態換ip軟體帶你看：爬蟲常見的抓取策略
2019-01-09
爬蟲
爬蟲技術淺析
2020-08-19
爬蟲
爬蟲技術實戰
2020-08-19
爬蟲
頁面靜態化技術演進
2021-11-10
looter——超輕量級爬蟲框架
2019-04-27
爬蟲框架
使用puppeteer爬蟲，檢查頁面靜態資源丟失
2019-02-16
爬蟲
如何利用Python網路爬蟲抓取微信朋友圈的動態（上）
2018-05-09
Python爬蟲
網頁渲染方式-從靜態頁面到服務端渲染
2019-05-13
網頁服務端
python爬蟲庫技術分享
2022-01-19
Python爬蟲
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
超級漂亮的網上花店html靜態頁面
2020-12-27
HTML
如何用python爬蟲分析動態網頁的商品資訊？
2021-09-11
Python爬蟲網頁
限制IP到全流程防控，講解網路爬蟲與技術反爬的動態攻防
2022-11-16
爬蟲
導致爬蟲動態代理IP超時的原因有哪些
2022-05-11
爬蟲
JavaScript系列：動態建立iframe並載入頁面
2021-09-09
JavaScript
Web 端反爬蟲技術方案
2019-03-04
Web爬蟲
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲

爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南

如何獲取內容資訊？

解決方案

總結

相關文章