Scrapy 教程

weixin_34353714發表於2017-05-27
  • 安裝scrapy
    這裡提示一個技巧,我們用douban的源,這樣安裝快些
pip install -i https://pypi.douban.com/simple virtualenv 
  • 用scrapy新建一個工程
scrapy startproject yourProject
  • 新建一個爬蟲
scrapy genspider 爬蟲名稱 example.com(爬蟲網址)
  • 這裡我是用pycharm和virtualenv,開發的,我在pycharm設定下編譯環境,一般在你環境下的bin目錄下python2.7
1476360-67b08ca993e9ceef.png
image.png
1476360-b868c3a679950b25.png
image.png
  • 由於pycharm沒法直接除錯scrapy,我們需要自己新建一個main.py來執行scrapy的命令列,新建的main.py程式碼如下
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入該模組
execute(["scrapy", "crawl", "jobbole"]) #相當於命令列 scrapy crawl jobbole(之前設定的爬蟲名稱)

這樣就可以用斷點進行除錯了

  • 禁止robot協議,避免過濾了有爬蟲協議的網站,導致爬的網站很少,?
    修改settings.py,將
ROBOTSTXT_OBEY = False

相關文章