利用scrapy建立初始Python爬蟲專案
如何利用scrapy這個框架來完成一個簡單的爬蟲專案並用pycharm等IDE來進行除錯呢?
首先要搭建虛擬環境,不懂虛擬環境搭建的詳細步驟可參見另一篇部落格:http://blog.csdn.net/xx790008409/article/details/78461929
搭建完成虛擬環境過後,我們新建一個針對於此專案的虛擬環境,我們要使用Python3來建立虛擬環境(博主用的virtualenv wrapper,則虛擬環境放在E:/Envs這個資料夾中),我們給虛擬環境取名為virtual-test,等待虛擬環境建立完成。
然後我們需要安裝scrapy框架:
進入剛剛搭建的虛擬環境,執行pip install scrapy命令,等待執行完成。
如果覺得下載速度過慢,可使用豆瓣源來安裝:pip install -i https://pypi.douban.com/simple/ scrapy,執行並等待其安裝完成
安裝完scrapy框架後,進入專案存放的資料夾(博主在這裡新建了一個資料夾,叫做project-test資料夾),使用命令scrapy startproject SpiderTest,這裡的 SpiderTest是專案檔名(注意,這個專案檔名不能有連字元這樣的符號,只能是字母,數字和下劃線,且開頭為字母)。建立好專案後,根據下面的提示資訊,首先進入SpiderTest專案檔案,然後輸入命令scrapy genspider jobbole jobbole.com,這裡jobbole是其中的.py檔名,jobbole.com是要爬取的網站的域名。
注意:如果是windows,則還需繼續執行一條命令:
pip install -i https://pypi.douban.com/simple pypiwin32
防止後續除錯出現錯誤。
好了,現在我們的專案就基本建立成功,現在我們用pycharm來配置和除錯一下這個令人激動的專案的開端吧。
- 開啟pycharm,在選單欄找到File-Open
- 找到專案存放地點,點選OK
3.在選單欄裡面找到File-Settings,在搜尋欄裡輸入interpreter,在右側的project interpreter中選擇剛剛建立的虛擬環境,點選OK。
4.在專案中(SpiderTest)新建一個Python File 來執行我們的除錯過程,檔名為main.py。(注意這裡博主新建main檔案的位置錯誤,應當在SpiderTest 中新建,而不是在專案存放資料夾中新建)
在main.py中輸入如下程式碼:
from scrapy.cmdline import execute
import os
import sys
#得到main檔案的路徑
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#執行命令scrapy crawl jobbole
execute(['scrapy', 'crawl', 'jobbole'])
點選除錯:
正確執行!
注意:在settings.py檔案中,要進行後續的爬取,需要把ROBOTSTXT_OBEY = False
這一行去掉註釋
這樣我們就建立了一個基礎的爬蟲專案並用IDE執行了簡單的配置和除錯功能。
下次學習了新知識過後繼續與小夥伴們分享!
文中若有錯誤,或按照我的方法無法執行或執行錯誤,歡迎在下面評論留言。
相關文章
- Scrapy建立爬蟲專案爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲
- python爬蟲學習筆記 4.2 (Scrapy入門案例(建立專案))Python爬蟲筆記
- 建立爬蟲專案爬蟲
- scrapy入門教程()部署爬蟲專案爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹Python爬蟲框架
- Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案Python爬蟲框架
- python爬蟲Scrapy框架Python爬蟲框架
- 【Python篇】scrapy爬蟲Python爬蟲
- Python爬蟲—Scrapy框架Python爬蟲框架
- Scrapy定向爬蟲教程(一)——建立執行專案和基本介紹爬蟲
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- scrapy通用專案和爬蟲程式碼模板爬蟲
- Scrapy入門-第一個爬蟲專案爬蟲
- Python3 大型網路爬蟲實戰 — 給 scrapy 爬蟲專案設定為防反爬Python爬蟲
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Python3 大型網路爬蟲實戰 002 --- scrapy 爬蟲專案的建立及爬蟲的建立 --- 例項:爬取百度標題和CSDN部落格Python爬蟲
- scrapy爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- Python scrapy爬蟲框架簡介Python爬蟲框架
- Python爬蟲專案整理Python爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- Scrapy爬蟲-草稿爬蟲
- scrapy爬蟲框架爬蟲框架
- 如何快速建立一個爬蟲專案爬蟲
- scrapy 框架新建一個 爬蟲專案詳細步驟框架爬蟲
- Python網路爬蟲(六) Scrapy框架Python爬蟲框架
- Python 爬蟲 (六) -- Scrapy 框架學習Python爬蟲框架
- python爬蟲之Scrapy 使用代理配置Python爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 33個Python爬蟲專案Python爬蟲