我的第一個 scrapy 爬蟲

prepared發表於2019-02-16

原文網址 : https://flycode.co/archives/79244

安裝 python

這個就不用我說了吧，網上教程一大堆

安裝 scrapy 包

pip install scrapy

建立 scrapy 專案

scrapy startproject aliSpider

進入專案目錄下，建立爬蟲檔案

cmd 進入專案目錄，執行命令：

scrapy genspider -t crawl alispi job.alibaba.com

編寫 items.py 檔案

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class AlispiderItem(scrapy.Item):
    # define the fields for your item here like:
    detail = scrapy.Field()
    workPosition = scrapy.Field()
    jobclass = scrapy.Field()

編寫 alispi.py 檔案

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from aliSpider.items import AlispiderItem


class AlispiSpider(CrawlSpider):
    name = `alispi`
    allowed_domains = [`job.alibaba.com`]
    start_urls = [`https://job.alibaba.com/zhaopin/positionList.html#page/0`]
    pagelink = LinkExtractor(allow=("d+"))
    rules = (
        Rule(pagelink, callback=`parse_item`, follow=True),
    )

    def parse_item(self, response):
        # for each in response.xpath("//tr[@style=`display:none`]"):
        for each in response.xpath("//tr"):
            item = AlispiderItem()
            # 職位名稱
            item[`detail`] = each.xpath("./td[1]/span/a/@href").extract()
            # # # 詳情連線
            item[`workPosition`] = each.xpath("./td[3]/span/text()").extract()
            # # # 職位類別
            item[`jobclass`] = each.xpath("./td[2]/span/text()").extract()
            yield item

執行

scrapy crawl alispi

輸出到檔案 items.json

scrapy crawl alispi -o items.json

執行成功會顯示如下內容

版本說明

python 3.5.5

參考：https://scrapy-chs.readthedoc…

關注微信公眾號 [prepared]，與博主深入探討。

精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
我的第一個Python爬蟲——談心得
2018-03-30
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
Python爬蟲教程-33-scrapy shell 的使用
2018-09-06
Python爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
爬蟲學習日記（六）完成第一個爬蟲任務
2019-01-10
爬蟲
scrapy 框架新建一個爬蟲專案詳細步驟
2018-06-09
框架爬蟲
儲存資料到MySql資料庫——我用scrapy寫爬蟲（二）
2019-02-16
MySql資料庫爬蟲

我的第一個 scrapy 爬蟲

相關文章