python網路爬蟲--專案實戰--scrapy嵌入selenium,晶片廠級聯評論爬取(6)
一、目標
爬取晶片廠電影級聯頁面的評論
二、分析
2.1 網頁分析
經過研究發現,該網頁的評論是動態載入的。故我們本次採用selenium來解決。本次只拿資料不進行儲存。
三、完整程式碼
xpc.py
import scrapy
class XpcSpider(scrapy.Spider):
name = 'xpc'
allowed_domains = ['www.xinpianchang.com']
start_urls = ['https://www.xinpianchang.com/a10975710?from=ArticleList']
def parse(self, response):
results = response.xpath("//ul[contains(@class, 'comment-list')]/li/div/div/i[@class='text']/text()").extract()
print(results)
middlewares.py
該py檔案中只需要改 process_request函式即可
class ScrapyadvancedDownloaderMiddleware:
# Not all methods need to be defined. If a method is not defined,
# scrapy acts as if the downloader middleware does not modify the
# passed objects.
@classmethod
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s
def process_request(self, request, spider):
# Called for each request that goes through the downloader
# middleware.
# Must either:
# - return None: continue processing this request
# - or return a Response object
# - or return a Request object
# - or raise IgnoreRequest: process_exception() methods of
# installed downloader middleware will be called
if isinstance(spider, XpcSpider):
# 在這可以很方便的新增 隨機UA,Cookie,Proxy
print("切點我來了", request.url)
# if isinstance(spider, XpcSpider):
# 呼叫谷歌瀏覽器進行請求
driver = WebDriver()
driver.get(request.url)
sleep(2)
# 獲取請求的內容
content = driver.page_source
# 使用請求內容構造Response
response = HtmlResponse(request.url, body=content.encode("utf-8"))
return response
# return None
相關文章
- 【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊Python爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- python實現selenium網路爬蟲Python爬蟲
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- 【爬蟲】專案篇-使用selenium爬取大魚潮汐網爬蟲
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- 爬蟲實戰scrapy爬蟲
- Python網路爬蟲實戰Python爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 利用scrapy建立初始Python爬蟲專案Python爬蟲
- Python爬蟲 ---scrapy框架初探及實戰Python爬蟲框架
- 2019最新《網路爬蟲JAVA專案實戰》爬蟲Java
- 最新《30小時搞定Python網路爬蟲專案實戰》Python爬蟲
- Python網路爬蟲4 - scrapy入門Python爬蟲
- Python靜態網頁爬蟲專案實戰Python網頁爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- python3網路爬蟲開發實戰_Python3 爬蟲實戰Python爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- 視訊教程-Python網路爬蟲開發與專案實戰-PythonPython爬蟲
- scrapy實戰專案(簡單的爬取知乎專案)
- 網路爬蟲專案爬蟲
- Python網路爬蟲 - Phantomjs, selenium/Chromedirver使用Python爬蟲JSChrome
- 精通 Python 網路爬蟲:核心技術、框架與專案實戰Python爬蟲框架
- [Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品Python爬蟲
- 《Python3網路爬蟲開發實戰》教程||爬蟲教程Python爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- python 爬蟲實戰專案--爬取京東商品資訊(價格、優惠、排名、好評率等)Python爬蟲