PyCharm下進行Scrapy專案的除錯

weixin_33809981發表於2017-06-03

PyCharm下進行Scrapy專案的除錯,可以在爬蟲專案的根目錄建立一個main.py,然後在PyCharm設定下執行路徑,那麼就不用每次都在命令列執行程式碼,直接執行main.py就能啟動爬蟲了。

1、首先建立一個Scrapy專案:

在命令列輸入:

scrapy startproject project_name複製程式碼

project_name為專案名稱,比如我的專案名稱為py_scrapyjobbole,生成的目錄為:


2、建立新的Spider

在命令列輸入:

scrapy genspider jobbole(spider名稱) blog.jobbole.com(爬取的起始url)複製程式碼
# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass複製程式碼

3、配置setting.py檔案(這步很重要)

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False複製程式碼

ROBOTSTXT_OBEY = False一定要設定成 False,斷點除錯才能正常進行。<>


4、在工程目錄下建立main.py檔案,稍後將會在這裡面進行除錯!

from scrapy.cmdline import execute
import sys
import os

# 打斷點除錯py檔案
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])複製程式碼

5、進行斷點除錯

附錄

xpath相關知識

在用Scrapy進行資料爬取時可能會用到xpath相關知識,所以簡單地展示一張圖:

在這裡面值得注意的是‘’/“和”//“的區別!

/:代表子元素,選取的元素必須是父子關係

//:代表所有後代元素,選取的元素不一定是父子關係,只要是後代元素即可

不過,大家要是覺得難的話,也可以利用chrome的元素查詢功能進行xpath路徑的複製:

相關文章