爬蟲--Scrapy簡易爬蟲
1.建立爬蟲專案檔案 meiju
2.修改settings中爬蟲協議為False
3.meiju目錄下,再次新建爬蟲檔案
–scrapy genspider <檔名> <爬蟲的url> 這裡用meijuSpider檔名
4.主專案下建立快速除錯方式
在meijuSpider.py中
import scrapy
# 爬蟲類: 繼承scrapy.Spider
from ..items import MeijuItem
class MeijuspiderSpider(scrapy.Spider):
# 爬蟲名:唯一
name = 'meijuSpider'
# 允許的域名列表
allowed_domains = ['meijutt.tv']
# 第一個爬取的url
start_urls = ['https://www.meijutt.tv/new100.html']
# 解析響應資料
# Scrapy內部爬取完成後自動呼叫,並返回響應資料
def parse(self, response):
# print(type(response))
# <class 'scrapy.http.response.html.HtmlResponse'>
# print(response.text) # 字串網頁內容
# print(response.body) # 二進位制網頁內容
# scrapy整合了xpath
movie_list = response.xpath('//ul[@class="top-list fn-clear"]/li')
# print(movie_list)
for movie in movie_list:
# 電影名稱
# m_name = movie.xpath('./h5/a/text()')[0].extract() # 獲取data的文字資料
# m_name = movie.xpath('./h5/a/text()').extract_first() # 推薦 獲取data的文字資料
m_name = movie.xpath('./h5/a/text()').get() # 推薦 獲取data的文字資料
# print(m_name)
# 電影型別
m_type = movie.xpath('./span[@class="mjjq"]/text()').get()
# 電視臺
m_tv = movie.xpath('./span[@class="mjtv"]/text()').get()
# 時間
m_time = movie.xpath('./div[@class="lasted-time new100time fn-right"]/font/text()').get()
# print(m_name, m_type, m_tv, m_time)
# 建立item
item = MeijuItem()
item["mname"] = m_name # 這裡要以字典的方式寫
item["mtype"] = m_type
item["mtv"] = m_tv
item["mtime"] = m_time
# 這裡返回的item會進入到管道piplines中
yield item
相關文章
- scrapy爬蟲爬蟲
- scrapy爬蟲 函式間傳值簡易教程爬蟲函式
- Scrapy爬蟲-草稿爬蟲
- Scrapy爬蟲框架爬蟲框架
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- Python scrapy爬蟲框架簡介Python爬蟲框架
- scrapy爬蟲代理池爬蟲
- 爬蟲實戰scrapy爬蟲
- scrapy + mogoDB 網站爬蟲Go網站爬蟲
- 爬蟲框架-scrapy的使用爬蟲框架
- python爬蟲Scrapy框架Python爬蟲框架
- Scrapy爬蟲框架的使用爬蟲框架
- 【Python篇】scrapy爬蟲Python爬蟲
- Python爬蟲—Scrapy框架Python爬蟲框架
- Scrapy建立爬蟲專案爬蟲
- Scrapy之"並行"爬蟲並行爬蟲
- Scrapy 示例 —— Web 爬蟲框架Web爬蟲框架
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- 爬蟲(14) - Scrapy-Redis分散式爬蟲(1) | 詳解爬蟲Redis分散式
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 分享一個簡易淘寶爬蟲爬蟲
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Windows下安裝配置爬蟲工具Scrapy及爬蟲環境Windows爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- scrapy定製爬蟲-爬取javascript內容爬蟲JavaScript
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- scrapy之分散式爬蟲scrapy-redis分散式爬蟲Redis
- Scrapy框架的使用之Scrapy通用爬蟲框架爬蟲
- 爬蟲與反爬蟲技術簡介爬蟲
- 簡易多執行緒爬蟲框架執行緒爬蟲框架
- Python爬蟲 --- 2.3 Scrapy 框架的簡單使用Python爬蟲框架
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲
- 爬蟲:多程式爬蟲爬蟲
- 我的第一個 scrapy 爬蟲爬蟲