爬蟲--Scrapy簡易爬蟲

像風一樣的男人@發表於2020-10-07

原文網址 : https://blog.csdn.net/weixin_44634704/article/details/108955343

1.建立爬蟲專案檔案 meiju
2.修改settings中爬蟲協議為False
3.meiju目錄下,再次新建爬蟲檔案
–scrapy genspider <檔名> <爬蟲的url> 這裡用meijuSpider檔名
4.主專案下建立快速除錯方式

在meijuSpider.py中

import scrapy
# 爬蟲類: 繼承scrapy.Spider
from ..items import MeijuItem


class MeijuspiderSpider(scrapy.Spider):
    # 爬蟲名:唯一
    name = 'meijuSpider'

    # 允許的域名列表
    allowed_domains = ['meijutt.tv']

    # 第一個爬取的url
    start_urls = ['https://www.meijutt.tv/new100.html']

    #  解析響應資料
    # Scrapy內部爬取完成後自動呼叫,並返回響應資料
    def parse(self, response):
        # print(type(response))
        # <class 'scrapy.http.response.html.HtmlResponse'>

        # print(response.text)  # 字串網頁內容
        # print(response.body)  # 二進位制網頁內容

        # scrapy整合了xpath
        movie_list = response.xpath('//ul[@class="top-list  fn-clear"]/li')
        # print(movie_list)

        for movie in movie_list:
            # 電影名稱
            # m_name = movie.xpath('./h5/a/text()')[0].extract()  # 獲取data的文字資料
            # m_name = movie.xpath('./h5/a/text()').extract_first()  # 推薦 獲取data的文字資料

            m_name = movie.xpath('./h5/a/text()').get()  # 推薦 獲取data的文字資料
            # print(m_name)

            # 電影型別
            m_type = movie.xpath('./span[@class="mjjq"]/text()').get()
            # 電視臺
            m_tv = movie.xpath('./span[@class="mjtv"]/text()').get()
            # 時間
            m_time = movie.xpath('./div[@class="lasted-time new100time fn-right"]/font/text()').get()

            # print(m_name, m_type, m_tv, m_time)

            # 建立item
            item = MeijuItem()
            item["mname"] = m_name  # 這裡要以字典的方式寫
            item["mtype"] = m_type
            item["mtv"] = m_tv
            item["mtime"] = m_time

            # 這裡返回的item會進入到管道piplines中
            yield item

Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
簡易多執行緒爬蟲框架
2018-06-02
執行緒爬蟲框架
我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲

爬蟲--Scrapy簡易爬蟲

相關文章