Scrapy 教程
- 安裝scrapy
這裡提示一個技巧,我們用douban的源,這樣安裝快些
pip install -i https://pypi.douban.com/simple virtualenv
- 用scrapy新建一個工程
scrapy startproject yourProject
- 新建一個爬蟲
scrapy genspider 爬蟲名稱 example.com(爬蟲網址)
- 這裡我是用pycharm和virtualenv,開發的,我在pycharm設定下編譯環境,一般在你環境下的bin目錄下python2.7
- 由於pycharm沒法直接除錯scrapy,我們需要自己新建一個main.py來執行scrapy的命令列,新建的main.py程式碼如下
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入該模組
execute(["scrapy", "crawl", "jobbole"]) #相當於命令列 scrapy crawl jobbole(之前設定的爬蟲名稱)
這樣就可以用斷點進行除錯了
- 禁止robot協議,避免過濾了有爬蟲協議的網站,導致爬的網站很少,?
修改settings.py,將
ROBOTSTXT_OBEY = False
相關文章
- scrapy入門教程3:scrapy的shell命令
- scrapy入門教程1:scrapy環境配置以及安裝
- Python scrapy基礎教程(三)Python
- Python scrapy基礎教程(二)Python
- Python scrapy基礎教程(一)Python
- scrapy和scrapy-redis有什麼區別?Python基礎教程RedisPython
- scrapy入門教程()部署爬蟲專案爬蟲
- Python爬蟲教程-33-scrapy shell 的使用Python爬蟲
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲
- scrapy爬蟲 函式間傳值簡易教程爬蟲函式
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- Scrapy框架的使用之Scrapy入門框架
- Scrapy框架框架
- 初始scrapy
- scrapy使用
- scrapy(2)
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- scrapy之分散式爬蟲scrapy-redis分散式爬蟲Redis
- Scrapy框架的使用之Scrapy通用爬蟲框架爬蟲
- Scrapy框架的使用之Scrapy對接Splash框架
- Scrapy框架的使用之Scrapy框架介紹框架
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- Scrapy框架的使用之Scrapy爬取新浪微博框架
- Scrapy定向爬蟲教程(一)——建立執行專案和基本介紹爬蟲
- scrapy入門
- scrapy爬蟲爬蟲
- scrapy 基礎
- Scrapy-RedisRedis
- scrapy新增新命令
- Scrapy框架-Spider框架IDE
- Scrapy爬蟲-草稿爬蟲
- Scrapy框架簡介框架
- CentOS 安裝ScrapyCentOS
- Scrapy 對接 DockerDocker
- scrapy安裝——UbuntuUbuntu
- ubuntu安裝ScrapyUbuntu
- Scrapy爬蟲框架爬蟲框架
- Scrapy框架-通過scrapy_splash解析動態渲染的資料框架