PyCharm下進行Scrapy專案的除錯

weixin_33809981發表於2017-06-03

PyCharm下進行Scrapy專案的除錯，可以在爬蟲專案的根目錄建立一個main.py，然後在PyCharm設定下執行路徑，那麼就不用每次都在命令列執行程式碼，直接執行main.py就能啟動爬蟲了。

1、首先建立一個Scrapy專案：

在命令列輸入：

scrapy startproject project_name複製程式碼

project_name為專案名稱，比如我的專案名稱為py_scrapyjobbole，生成的目錄為：

2、建立新的Spider

在命令列輸入：

scrapy genspider jobbole(spider名稱) blog.jobbole.com(爬取的起始url)複製程式碼

# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass複製程式碼

3、配置setting.py檔案（這步很重要）

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False複製程式碼

ROBOTSTXT_OBEY = False一定要設定成 False，斷點除錯才能正常進行。<>

4、在工程目錄下建立main.py檔案，稍後將會在這裡面進行除錯！

from scrapy.cmdline import execute
import sys
import os

# 打斷點除錯py檔案
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])複製程式碼

5、進行斷點除錯

附錄

xpath相關知識

在用Scrapy進行資料爬取時可能會用到xpath相關知識，所以簡單地展示一張圖：

在這裡面值得注意的是‘’/“和”//“的區別！

/：代表子元素，選取的元素必須是父子關係

//：代表所有後代元素，選取的元素不一定是父子關係，只要是後代元素即可

不過，大家要是覺得難的話，也可以利用chrome的元素查詢功能進行xpath路徑的複製：

如何用 PyCharm 除錯 scrapy 專案
2017-07-24
PyCharm除錯
在Pycharm上使用遠端伺服器進行除錯
2023-03-17
PyCharm伺服器除錯
Pycharm的斷點除錯
2018-07-27
PyCharm斷點除錯
Pycharm遠端除錯
2018-12-16
PyCharm除錯
Pycharm中Flask的除錯模式
2020-10-20
PyCharmFlask除錯模式
scrapy在pychram中除錯
2024-08-01
除錯
Scrapy的專案管道
2018-01-10
pycharm 遠端除錯配置
2015-07-18
PyCharm除錯
pycharm 遠端除錯之二
2019-01-09
PyCharm除錯
Vue專案除錯技能
2022-07-16
Vue除錯
除錯python專案
2024-05-24
除錯Python
APPCAN 如何快速的進行除錯？
2019-04-17
APPPCA除錯
一個完整的scrapy 專案
2020-05-02
mac 下PyCharm執行報錯問題解決
2015-04-09
MacPyCharm
萬能除錯 | Python爬蟲Scrapy框架HTTP代理的配置與除錯
2022-12-14
除錯Python爬蟲框架HTTP
使用 vuetron 除錯 mpvue 專案
2018-06-24
Vue除錯
使用 C-Reduce 進行除錯
2019-03-03
除錯
使用pdb進行Python除錯
2021-06-30
Python除錯
phpstorm進行動態除錯
2024-05-26
PHPORM除錯
Python-PyCharm中的專案移除已經完全刪除的方法
2020-10-25
PythonPyCharm
Pycharm同步遠端伺服器除錯
2020-11-03
PyCharm伺服器除錯
Scrapy建立爬蟲專案
2017-10-10
爬蟲
nukkit maven 專案除錯外掛
2024-03-31
Maven除錯
用scrapy進行網頁抓取
2012-05-09
網頁
Kubernetes 使用arthas進行除錯
2020-08-06
除錯
使用Xdebug進行遠端除錯
2021-11-18
除錯
使用IDEA進行遠端除錯
2024-06-27
Idea除錯
scrapy實戰專案（簡單的爬取知乎專案）
2018-05-17
從githup下載別人的vue專案，執行出錯
2018-10-13
GitVue
maven專案生成的war包在tomcat下執行報錯
2014-11-19
MavenTomcat
Django（3）pycharm建立專案
2021-05-11
DjangoPyCharm
使用pycharm新建Django專案
2017-12-08
PyCharmDjango
使用 ndb 除錯你的 Node.js 專案
2019-03-03
除錯Node.js
Java專案除錯技巧及版本控制
2021-07-23
Java除錯
Xamarin無法除錯Android專案
2017-11-07
除錯Android
雲原生時代如何方便的進行本地除錯
2019-01-21
除錯
python執行scrapy專案：no modle named win32api
2017-04-05
PythonWin32API
PyCharm 建立純Python專案
2018-10-15
PyCharmPython