利用scrapy建立初始Python爬蟲專案

緣茜行發表於2018-03-04

原文網址 : https://blog.csdn.net/xx790008409/article/details/79438454

如何利用scrapy這個框架來完成一個簡單的爬蟲專案並用pycharm等IDE來進行除錯呢？

首先要搭建虛擬環境，不懂虛擬環境搭建的詳細步驟可參見另一篇部落格：http://blog.csdn.net/xx790008409/article/details/78461929
搭建完成虛擬環境過後，我們新建一個針對於此專案的虛擬環境，我們要使用Python3來建立虛擬環境（博主用的virtualenv wrapper，則虛擬環境放在E:/Envs這個資料夾中），我們給虛擬環境取名為virtual-test，等待虛擬環境建立完成。
這裡寫圖片描述

然後我們需要安裝scrapy框架：
進入剛剛搭建的虛擬環境，執行pip install scrapy命令，等待執行完成。
如果覺得下載速度過慢，可使用豆瓣源來安裝：pip install -i https://pypi.douban.com/simple/ scrapy，執行並等待其安裝完成
這裡寫圖片描述

安裝完scrapy框架後，進入專案存放的資料夾（博主在這裡新建了一個資料夾，叫做project-test資料夾），使用命令scrapy startproject SpiderTest，這裡的 SpiderTest是專案檔名（注意，這個專案檔名不能有連字元這樣的符號，只能是字母，數字和下劃線，且開頭為字母）。建立好專案後，根據下面的提示資訊，首先進入SpiderTest專案檔案，然後輸入命令scrapy genspider jobbole jobbole.com，這裡jobbole是其中的.py檔名，jobbole.com是要爬取的網站的域名。
這裡寫圖片描述

注意：如果是windows，則還需繼續執行一條命令：
pip install -i https://pypi.douban.com/simple pypiwin32
防止後續除錯出現錯誤。

好了，現在我們的專案就基本建立成功，現在我們用pycharm來配置和除錯一下這個令人激動的專案的開端吧。

開啟pycharm，在選單欄找到File-Open
找到專案存放地點，點選OK

3.在選單欄裡面找到File-Settings，在搜尋欄裡輸入interpreter，在右側的project interpreter中選擇剛剛建立的虛擬環境，點選OK。

4.在專案中（SpiderTest）新建一個Python File 來執行我們的除錯過程，檔名為main.py。（注意這裡博主新建main檔案的位置錯誤，應當在SpiderTest 中新建，而不是在專案存放資料夾中新建）

在main.py中輸入如下程式碼：

from scrapy.cmdline import execute
import os
import sys

#得到main檔案的路徑
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#執行命令scrapy crawl jobbole
execute(['scrapy', 'crawl', 'jobbole'])

點選除錯：
這裡寫圖片描述
正確執行！
注意：在settings.py檔案中，要進行後續的爬取，需要把ROBOTSTXT_OBEY = False這一行去掉註釋
這樣我們就建立了一個基礎的爬蟲專案並用IDE執行了簡單的配置和除錯功能。
下次學習了新知識過後繼續與小夥伴們分享！
文中若有錯誤，或按照我的方法無法執行或執行錯誤，歡迎在下面評論留言。

Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
scrapy通用專案和爬蟲程式碼模板
2021-03-22
爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
如何快速建立一個爬蟲專案
2020-11-20
爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
scrapy 框架新建一個爬蟲專案詳細步驟
2018-06-09
框架爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
Python爬蟲開源專案合集
2020-06-04
Python爬蟲
github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合
2022-02-18
GithubPython爬蟲

利用scrapy建立初始Python爬蟲專案

相關文章