python網路爬蟲--專案實戰--scrapy嵌入selenium,晶片廠級聯評論爬取(6)
一、目標
爬取晶片廠電影級聯頁面的評論
二、分析
2.1 網頁分析
經過研究發現,該網頁的評論是動態載入的。故我們本次採用selenium來解決。本次只拿資料不進行儲存。
三、完整程式碼
xpc.py
import scrapy
class XpcSpider(scrapy.Spider):
name = 'xpc'
allowed_domains = ['www.xinpianchang.com']
start_urls = ['https://www.xinpianchang.com/a10975710?from=ArticleList']
def parse(self, response):
results = response.xpath("//ul[contains(@class, 'comment-list')]/li/div/div/i[@class='text']/text()").extract()
print(results)
middlewares.py
該py檔案中只需要改 process_request函式即可
class ScrapyadvancedDownloaderMiddleware:
# Not all methods need to be defined. If a method is not defined,
# scrapy acts as if the downloader middleware does not modify the
# passed objects.
@classmethod
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s
def process_request(self, request, spider):
# Called for each request that goes through the downloader
# middleware.
# Must either:
# - return None: continue processing this request
# - or return a Response object
# - or return a Request object
# - or raise IgnoreRequest: process_exception() methods of
# installed downloader middleware will be called
if isinstance(spider, XpcSpider):
# 在這可以很方便的新增 隨機UA,Cookie,Proxy
print("切點我來了", request.url)
# if isinstance(spider, XpcSpider):
# 呼叫谷歌瀏覽器進行請求
driver = WebDriver()
driver.get(request.url)
sleep(2)
# 獲取請求的內容
content = driver.page_source
# 使用請求內容構造Response
response = HtmlResponse(request.url, body=content.encode("utf-8"))
return response
# return None
相關文章
- Python3 大型網路爬蟲實戰 — 給 scrapy 爬蟲專案設定為防反爬Python爬蟲
- 【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊Python爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰:爬取 169美女圖片網 高清圖片Python爬蟲網站
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- 爬蟲實戰scrapy爬蟲
- Python3 大型網路爬蟲實戰 004 — scrapy 大型靜態商城網站爬蟲專案編寫及資料寫入資料庫實戰 — 實戰:爬取淘寶Python爬蟲網站資料庫
- Python爬蟲實戰-使用Scrapy框架爬取土巴兔(一)Python爬蟲框架
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 【爬蟲】專案篇-使用selenium爬取大魚潮汐網爬蟲
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- Python3 大型網路爬蟲實戰 002 --- scrapy 爬蟲專案的建立及爬蟲的建立 --- 例項:爬取百度標題和CSDN部落格Python爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- python實現selenium網路爬蟲Python爬蟲
- Python網路爬蟲實戰Python爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- Scrapy建立爬蟲專案爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- Python網路爬蟲(六) Scrapy框架Python爬蟲框架
- 【Python爬蟲9】Python網路爬蟲例項實戰Python爬蟲
- Python大型網路爬蟲專案開發實戰(全套)Python爬蟲
- scrapy實戰專案(簡單的爬取知乎專案)
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- Python爬蟲 ---scrapy框架初探及實戰Python爬蟲框架
- 利用scrapy建立初始Python爬蟲專案Python爬蟲
- 網路爬蟲專案爬蟲
- Python靜態網頁爬蟲專案實戰Python網頁爬蟲
- 最新《30小時搞定Python網路爬蟲專案實戰》Python爬蟲
- Python網路爬蟲4 - scrapy入門Python爬蟲
- Python的Scrapy定製網路爬蟲Python爬蟲
- Python爬蟲-用Scrapy框架實現漫畫的爬取Python爬蟲框架