爬蟲--Scrapy簡易爬蟲
1.建立爬蟲專案檔案 meiju
2.修改settings中爬蟲協議為False
3.meiju目錄下,再次新建爬蟲檔案
–scrapy genspider <檔名> <爬蟲的url> 這裡用meijuSpider檔名
4.主專案下建立快速除錯方式
在meijuSpider.py中
import scrapy
# 爬蟲類: 繼承scrapy.Spider
from ..items import MeijuItem
class MeijuspiderSpider(scrapy.Spider):
# 爬蟲名:唯一
name = 'meijuSpider'
# 允許的域名列表
allowed_domains = ['meijutt.tv']
# 第一個爬取的url
start_urls = ['https://www.meijutt.tv/new100.html']
# 解析響應資料
# Scrapy內部爬取完成後自動呼叫,並返回響應資料
def parse(self, response):
# print(type(response))
# <class 'scrapy.http.response.html.HtmlResponse'>
# print(response.text) # 字串網頁內容
# print(response.body) # 二進位制網頁內容
# scrapy整合了xpath
movie_list = response.xpath('//ul[@class="top-list fn-clear"]/li')
# print(movie_list)
for movie in movie_list:
# 電影名稱
# m_name = movie.xpath('./h5/a/text()')[0].extract() # 獲取data的文字資料
# m_name = movie.xpath('./h5/a/text()').extract_first() # 推薦 獲取data的文字資料
m_name = movie.xpath('./h5/a/text()').get() # 推薦 獲取data的文字資料
# print(m_name)
# 電影型別
m_type = movie.xpath('./span[@class="mjjq"]/text()').get()
# 電視臺
m_tv = movie.xpath('./span[@class="mjtv"]/text()').get()
# 時間
m_time = movie.xpath('./div[@class="lasted-time new100time fn-right"]/font/text()').get()
# print(m_name, m_type, m_tv, m_time)
# 建立item
item = MeijuItem()
item["mname"] = m_name # 這裡要以字典的方式寫
item["mtype"] = m_type
item["mtv"] = m_tv
item["mtime"] = m_time
# 這裡返回的item會進入到管道piplines中
yield item
相關文章
- Scrapy爬蟲框架爬蟲框架
- Scrapy爬蟲-草稿爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- Python爬蟲—Scrapy框架Python爬蟲框架
- 【Python篇】scrapy爬蟲Python爬蟲
- python爬蟲Scrapy框架Python爬蟲框架
- scrapy爬蟲代理池爬蟲
- 爬蟲實戰scrapy爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- scrapy + mogoDB 網站爬蟲Go網站爬蟲
- Scrapy爬蟲框架的使用爬蟲框架
- 爬蟲框架-scrapy的使用爬蟲框架
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- 爬蟲(14) - Scrapy-Redis分散式爬蟲(1) | 詳解爬蟲Redis分散式
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲 --- 2.3 Scrapy 框架的簡單使用Python爬蟲框架
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Windows下安裝配置爬蟲工具Scrapy及爬蟲環境Windows爬蟲
- scrapy之分散式爬蟲scrapy-redis分散式爬蟲Redis
- Scrapy框架的使用之Scrapy通用爬蟲框架爬蟲
- 爬蟲與反爬蟲技術簡介爬蟲
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲
- 簡易多執行緒爬蟲框架執行緒爬蟲框架
- 我的第一個 scrapy 爬蟲爬蟲
- scrapy 爬蟲利器初體驗(1)爬蟲
- 爬蟲:多程式爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹Python爬蟲框架
- 通用爬蟲與聚焦爬蟲爬蟲
- Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案Python爬蟲框架
- python 爬蟲對 scrapy 框架的認識Python爬蟲框架
- Scrapy使用入門及爬蟲代理配置爬蟲
- Python爬蟲 ---scrapy框架初探及實戰Python爬蟲框架
- 快速上手——我用scrapy寫爬蟲(一)爬蟲