Python 爬取網頁中JavaScript動態新增的內容（一）

寒爵發表於2018-09-28

原文網址 : https://flycode.co/archives/234526

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。那麼，通過Web kit可以簡單解決這個問題。Web kit 可以實現瀏覽器所能處理的任何事情。對於某些瀏覽器來說，Web kit就是其底層的網頁渲染工具。Web kit是QT庫的一部分，因此如果你已經安裝QT和PyQT4庫，那麼你可以直接執行之。

1、環境準備

Linux：sudo apt-get install python-qt4

Windows：https://www.cnblogs.com/Jimc/p/9717238.html

2、使用

首先通過 Web kit 傳送請求資訊，然後等待網頁被完全載入後將其賦值到某個變數中。接下來我們利用lxml從 HTML 資料中提取出有效的資訊。這個過程需要一點時間。

import sys
from PyQt4.QtWebKit import *
from PyQt4.QtGui import *
from PyQt4.QtCore import *

class Render(QWebPage):  # 用來渲染網頁,將url中的所有資訊載入下來並存到一個新的框架中
    def __init__(self,url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()
    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()

url = `http://jandan.net/ooxx`
r = Render(url)
html = r.frame.toHtml()
print(html)

那麼，後面的工作就是解析HTML程式碼了，這裡不做講解。

Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
ferret 爬取動態網頁
2019-12-15
網頁
Python爬取網頁的所有內外鏈
2021-04-09
Python網頁
提取動態html網頁內容
2018-09-06
HTML網頁
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
JavaScript 獲取網頁尾本程式碼內容
2020-02-20
JavaScript網頁
java 爬取網頁內容。標題、圖片等
2021-09-24
Java網頁
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
2020-09-14
Python爬蟲網頁
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
[譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容
2019-02-23
Python網站
C#爬取動態網頁上的資訊：B站主頁
2024-09-27
C#網頁
動態網站的爬取
2018-08-29
網站
關於python爬取網頁
2021-03-10
Python網頁
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
python爬取網頁詳細教程
2021-09-11
Python網頁
[實戰演練]python3使用requests模組爬取頁面內容
2021-09-09
Python
如何用python爬蟲分析動態網頁的商品資訊？
2021-09-11
Python爬蟲網頁
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
爬蟲：越滑越多的動態網頁列表流資料（透過 Ajax 獲取微博個性化推薦內容）
2022-11-24
爬蟲網頁
Python筆記：網頁資訊爬取簡介（一）
2020-11-11
Python筆記網頁
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
如何使用python進行網頁爬取?
2020-08-06
Python網頁
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用
2019-02-28
Python爬蟲
python爬取58同城一頁資料
2018-08-04
Python
爬取網頁文章
2021-09-29
網頁
網頁用python爬取後如何解析
2021-09-11
網頁Python
手機版python爬取網頁書籍
2020-12-19
Python網頁
python爬取換頁_爬蟲爬不進下一頁了，怎麼辦
2020-11-24
Python爬蟲
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁

Python 爬取網頁中JavaScript動態新增的內容（一）

1、環境準備

2、使用

相關文章