利用scrapy建立初始Python爬蟲專案

緣茜行發表於2018-03-04
如何利用scrapy這個框架來完成一個簡單的爬蟲專案並用pycharm等IDE來進行除錯呢?

首先要搭建虛擬環境,不懂虛擬環境搭建的詳細步驟可參見另一篇部落格:http://blog.csdn.net/xx790008409/article/details/78461929
搭建完成虛擬環境過後,我們新建一個針對於此專案的虛擬環境,我們要使用Python3來建立虛擬環境(博主用的virtualenv wrapper,則虛擬環境放在E:/Envs這個資料夾中),我們給虛擬環境取名為virtual-test,等待虛擬環境建立完成。
這裡寫圖片描述

然後我們需要安裝scrapy框架:
進入剛剛搭建的虛擬環境,執行pip install scrapy命令,等待執行完成。
如果覺得下載速度過慢,可使用豆瓣源來安裝:pip install -i https://pypi.douban.com/simple/ scrapy,執行並等待其安裝完成
這裡寫圖片描述

安裝完scrapy框架後,進入專案存放的資料夾(博主在這裡新建了一個資料夾,叫做project-test資料夾),使用命令scrapy startproject SpiderTest,這裡的 SpiderTest是專案檔名(注意,這個專案檔名不能有連字元這樣的符號,只能是字母,數字和下劃線,且開頭為字母)。建立好專案後,根據下面的提示資訊,首先進入SpiderTest專案檔案,然後輸入命令scrapy genspider jobbole jobbole.com,這裡jobbole是其中的.py檔名,jobbole.com是要爬取的網站的域名。
這裡寫圖片描述
這裡寫圖片描述

注意:如果是windows,則還需繼續執行一條命令:
pip install -i https://pypi.douban.com/simple pypiwin32
防止後續除錯出現錯誤。

好了,現在我們的專案就基本建立成功,現在我們用pycharm來配置和除錯一下這個令人激動的專案的開端吧。


  1. 開啟pycharm,在選單欄找到File-Open
    這裡寫圖片描述
  2. 找到專案存放地點,點選OK
    這裡寫圖片描述
    3.在選單欄裡面找到File-Settings,在搜尋欄裡輸入interpreter,在右側的project interpreter中選擇剛剛建立的虛擬環境,點選OK。
    這裡寫圖片描述
    這裡寫圖片描述
    這裡寫圖片描述
    4.在專案中(SpiderTest)新建一個Python File 來執行我們的除錯過程,檔名為main.py。(注意這裡博主新建main檔案的位置錯誤,應當在SpiderTest 中新建,而不是在專案存放資料夾中新建)
    這裡寫圖片描述
    在main.py中輸入如下程式碼:
from scrapy.cmdline import execute
import os
import sys

#得到main檔案的路徑
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#執行命令scrapy crawl jobbole
execute(['scrapy', 'crawl', 'jobbole'])

點選除錯:
這裡寫圖片描述
正確執行!
注意:在settings.py檔案中,要進行後續的爬取,需要把ROBOTSTXT_OBEY = False這一行去掉註釋
這樣我們就建立了一個基礎的爬蟲專案並用IDE執行了簡單的配置和除錯功能。
下次學習了新知識過後繼續與小夥伴們分享!
文中若有錯誤,或按照我的方法無法執行或執行錯誤,歡迎在下面評論留言。

相關文章