動態網站的爬取

小杰哥001發表於2018-08-29

原文網址 : https://juejin.im/post/5b86475951882542e56e5dea

介紹

在日常爬取過程中，動態網站的爬取是比較麻煩的，因為動態網站的資料是動態載入的，這時候我們需要用上selenuim中介軟體去模擬操作，獲取動態資料

開始

建立專案

1.scrapy startproject Taobao
複製程式碼

2.cd Taobao
複製程式碼

3. scrapy genspider taobao www.taobao.com
複製程式碼

開啟專案

首先我們什麼不做來爬取看看，先把setting裡面的爬蟲規則設定為False

ROBOTSTXT_OBEY = False
複製程式碼

我們在終端輸入

 scrapy view "http://www.taobao.com"
複製程式碼

這時候會發現爬取到的頁面如下所示：

可以發現爬取到的頁面是一個空的框架，沒有資料，那這時怎麼辦呢？？我們要用到selenuim這個中介軟體

使用中介軟體

我們關注下載中介軟體（ TaobaoDownloaderMiddleware）裡面的process_request函式我們添上一行程式碼看看什麼效果：

 def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        print("------我是中介軟體，請求經過我------")
        return None
複製程式碼

然後在seeting裡面，把下面的註釋去掉

DOWNLOADER_MIDDLEWARES = {
   'Taobao.middlewares.TaobaoDownloaderMiddleware': 543,
}
複製程式碼

我們執行一下看看效果：

scrapy view "http://www.taobao.com"
複製程式碼

效果：

------我是中介軟體，請求經過我------
2018-08-29 15:38:21 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.taobao.com/> from <GET http://www.taobao.com>
------我是中介軟體，請求經過我------
2018-08-29 15:38:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.taobao.com/> (referer: None)
複製程式碼

說明中介軟體是有效果的，如果我們在中介軟體模擬一些操作，是不是就能獲取動態資料呢？

middlewares中介軟體的操作

首先匯入selenium

from selenium import webdriver
#無介面執行
from selenium.webdriver.chrome.options import Options
複製程式碼

在 process_request函式中寫入如下程式碼

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.


        print("------我是中介軟體，請求經過我------")
        #設定無介面執行
        option = Options()
        option.add_argument("--headless")
        #建立一個driver物件
        #driver = webdriver.Chrome()
        driver = webdriver.Chrome(chrome_options=option)
        #等待15秒
        driver.implicitly_wait(15)
        driver.get(request.url)
        # 讓頁面滾動最底層 模擬人的操作
        js = 'window.scrollTo(0,document.body.scrollHeight)'
        # 執行js
        driver.execute_script(js)
        # 獲取內容
        content = driver.page_source
        from scrapy.http import HtmlResponse
        # 建立一個resp物件返回至解析函式
        resp = HtmlResponse(request.url,request=request,body=content,encoding='utf-8')
        return resp
        return None
複製程式碼

好了，這時已經獲取到動態資料了，這裡就不解析了，以上就是動態網站爬取的思路

爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
ferret 爬取動態網頁
2019-12-15
網頁
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
[python爬蟲] selenium爬取區域性動態重新整理網站（URL始終固定）
2018-04-26
Python爬蟲網站
爬取網站新聞
2020-09-24
網站
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Python 爬取網頁中JavaScript動態新增的內容（一）
2018-09-28
Python網頁JavaScript
Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
爬取某網站寫的python程式碼
2019-11-29
網站Python
使用 Python 爬取網站資料
2024-07-27
Python網站
Scrapy 爬取不同網站及自動執行的經驗分享
2020-11-16
網站
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
C#爬取動態網頁上的資訊：B站主頁
2024-09-27
C#網頁
前後端，靜態網站和動態網站，的理解
2024-11-05
後端網站
JB的Python之旅-爬取phizhub網站（原始碼）
2019-03-01
Python網站原始碼
如何用Python爬取需要登入的網站？
2018-08-23
Python網站
爬取彼岸網站的桌布（分類可選）
2024-07-03
網站
快速爬取登入網站資料
2020-11-20
網站
python動態網站爬蟲實戰(requests+xpath+demjson+redis)
2021-09-16
Python網站爬蟲JSONRedis
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
獲取爬蟲動態IP的三種方法
2022-06-06
爬蟲
如何使用robots禁止各大搜尋引擎爬蟲爬取網站
2018-08-28
爬蟲網站
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
Scrapy使用隨機User-Agent爬取網站
2018-08-31
隨機網站
python 非同步佇列爬取多個網站
2020-11-21
Python非同步佇列網站
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
程式設計師最愛的網站克隆爬取工具- HTTrack
2020-03-25
程式設計師網站
php網站首頁動態地址修改，如何將PHP網站首頁的動態地址改為靜態地址
2024-12-08
PHP網站
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
python如何爬取動漫截圖網
2021-09-11
Python
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
[譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容
2019-02-23
Python網站