利用scrapy建立初始Python爬蟲專案
如何利用scrapy這個框架來完成一個簡單的爬蟲專案並用pycharm等IDE來進行除錯呢?
首先要搭建虛擬環境,不懂虛擬環境搭建的詳細步驟可參見另一篇部落格:http://blog.csdn.net/xx790008409/article/details/78461929
搭建完成虛擬環境過後,我們新建一個針對於此專案的虛擬環境,我們要使用Python3來建立虛擬環境(博主用的virtualenv wrapper,則虛擬環境放在E:/Envs這個資料夾中),我們給虛擬環境取名為virtual-test,等待虛擬環境建立完成。
然後我們需要安裝scrapy框架:
進入剛剛搭建的虛擬環境,執行pip install scrapy命令,等待執行完成。
如果覺得下載速度過慢,可使用豆瓣源來安裝:pip install -i https://pypi.douban.com/simple/ scrapy,執行並等待其安裝完成
安裝完scrapy框架後,進入專案存放的資料夾(博主在這裡新建了一個資料夾,叫做project-test資料夾),使用命令scrapy startproject SpiderTest,這裡的 SpiderTest是專案檔名(注意,這個專案檔名不能有連字元這樣的符號,只能是字母,數字和下劃線,且開頭為字母)。建立好專案後,根據下面的提示資訊,首先進入SpiderTest專案檔案,然後輸入命令scrapy genspider jobbole jobbole.com,這裡jobbole是其中的.py檔名,jobbole.com是要爬取的網站的域名。
注意:如果是windows,則還需繼續執行一條命令:
pip install -i https://pypi.douban.com/simple pypiwin32
防止後續除錯出現錯誤。
好了,現在我們的專案就基本建立成功,現在我們用pycharm來配置和除錯一下這個令人激動的專案的開端吧。
- 開啟pycharm,在選單欄找到File-Open
- 找到專案存放地點,點選OK
3.在選單欄裡面找到File-Settings,在搜尋欄裡輸入interpreter,在右側的project interpreter中選擇剛剛建立的虛擬環境,點選OK。
4.在專案中(SpiderTest)新建一個Python File 來執行我們的除錯過程,檔名為main.py。(注意這裡博主新建main檔案的位置錯誤,應當在SpiderTest 中新建,而不是在專案存放資料夾中新建)
在main.py中輸入如下程式碼:
from scrapy.cmdline import execute
import os
import sys
#得到main檔案的路徑
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#執行命令scrapy crawl jobbole
execute(['scrapy', 'crawl', 'jobbole'])
點選除錯:
正確執行!
注意:在settings.py檔案中,要進行後續的爬取,需要把ROBOTSTXT_OBEY = False
這一行去掉註釋
這樣我們就建立了一個基礎的爬蟲專案並用IDE執行了簡單的配置和除錯功能。
下次學習了新知識過後繼續與小夥伴們分享!
文中若有錯誤,或按照我的方法無法執行或執行錯誤,歡迎在下面評論留言。
相關文章
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- python爬蟲學習筆記 4.2 (Scrapy入門案例(建立專案))Python爬蟲筆記
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹Python爬蟲框架
- python爬蟲Scrapy框架Python爬蟲框架
- Python爬蟲—Scrapy框架Python爬蟲框架
- 【Python篇】scrapy爬蟲Python爬蟲
- Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案Python爬蟲框架
- scrapy入門教程()部署爬蟲專案爬蟲
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Scrapy入門-第一個爬蟲專案爬蟲
- scrapy通用專案和爬蟲程式碼模板爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 爬蟲--Scrapy簡易爬蟲爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案?Python爬蟲Github
- 如何快速建立一個爬蟲專案爬蟲
- Scrapy爬蟲-草稿爬蟲
- Scrapy爬蟲框架爬蟲框架
- scrapy 框架新建一個 爬蟲專案詳細步驟框架爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- python網路爬蟲--專案實戰--scrapy嵌入selenium,晶片廠級聯評論爬取(6)Python爬蟲晶片
- Python3爬蟲(十八) Scrapy框架(二)Python爬蟲框架
- python爬蟲常用之Scrapy 中介軟體Python爬蟲
- python爬蟲系列(三)scrapy基本概念Python爬蟲
- Python網路爬蟲4 - scrapy入門Python爬蟲
- python 爬蟲對 scrapy 框架的認識Python爬蟲框架
- Python爬蟲 ---scrapy框架初探及實戰Python爬蟲框架
- 32個Python爬蟲專案demoPython爬蟲
- Python爬蟲開源專案合集Python爬蟲
- github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合GithubPython爬蟲