python 在pycharm中 爬蟲

小亞文發表於2017-09-22

查了一些資料發現大部分的爬蟲在liunx環境下執行,但本人想在windows下進行爬蟲,好不容易把各種依賴裝上了,但是如何在windows下pycharm中建立爬蟲,以及除錯和執行,進行了摸索。
參考了下面的兩篇文章:
http://blog.csdn.net/ck4438707/article/details/52076220
http://blog.csdn.net/pleasecallmewhy/article/details/19642329

1.首先新建一個工程

這裡寫圖片描述
並在工程裡面建一個檔案scrapyp.py,在檔案中寫入

from scrapy.cmdline import execute
execute()  

在pycharm中點選右上角:edit configurations
這裡寫圖片描述
則彈出如下框:
這裡寫圖片描述

在紅色箭頭指示的位置,輸入命名引數,建立一個爬蟲,名稱為tutorial,執行scrapyp.py檔案。
在工程下面會出現如下結構:
這裡寫圖片描述
到此一個基本的爬蟲框架出來了,後面需要再各個模組新增內容。

  1. 下面來簡單介紹一下各個檔案的作用:

    scrapy.cfg:專案的配置檔案
    tutorial/:專案的Python模組,將會從這裡引用程式碼
    tutorial/items.py:專案的items檔案
    tutorial/pipelines.py:專案的pipelines檔案
    tutorial/settings.py:專案的設定檔案
    tutorial/spiders/:儲存爬蟲的目錄
    這裡寫圖片描述
    在此檔案中放入如下程式碼,並執行可以看到爬取的內容:

from scrapy import cmdline
cmdline.execute("scrapy crawl dmoz".split())

這裡寫圖片描述

相關文章