Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案

肖朋偉發表於2018-09-04

原文網址 : https://icode.blog.csdn.net/article/details/82389734

Python爬蟲框架

本篇是介紹在 Anaconda 環境下，建立 Scrapy 爬蟲框架專案的步驟，且介紹比較詳細

Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案

首先說一下，本篇是在 Anaconda 環境下，所以如果沒有安裝 Anaconda 請先到官網下載安裝
Anaconda 下載地址：https://www.anaconda.com/download/

Scrapy 爬蟲框架專案的建立

0.開啟【cmd】
1.進入你要使用的 Anaconda 環境
- 1.環境名可以在【Pycharm】的【Settings】下【Project：】下找到
- 2.使用命令：activate 環境名，例如：
  
  activate learn
- 3.進入想要存放 scrapy 專案的目錄下 【注意】
- 4.新建專案：scrapy startproject xxx專案名，例如：
  
  scrapy startproject new_project
5.操作截圖：
6.在檔案資源管理器開啟該目錄，就會發現生成了好幾個檔案
7.使用 Pycharm 開啟專案所在目錄就可以了

這裡我們就把專案建立好了，分析一下自動生成的檔案的作用

Scrapy 爬蟲框架專案的開發

0.使用 Pycharm 開啟專案，截圖：
專案的開發的大致流程：
- 1.明確需要爬取的目標/產品：編寫 item.py
- 2.在 spider 目錄下載建立 python 檔案製作爬蟲：
  - 地址 spider/xxspider.py 負責分解，提取下載的資料
- 3.儲存內容：pipelines.py
Pipeline.py 檔案
- 對應 pipelines 檔案
- 爬蟲提取出資料存入 item 後，item 中儲存的資料需要進一步處理，比如清洗，去蟲，儲存等
- Pipeline 需要處理 process_item 函式
- process_item
  - spider 提取出來的 item 作為引數傳入，同時傳入的還有 spider
  - 此方法必須實現
  - 必須返回一個 Item 物件，被丟棄的 item 不會被之後的 pipeline
_ init _：建構函式
- 進行一些必要的引數初始化
open_spider(spider)：
- spider 物件對開啟的時候呼叫
close_spider(spider)：
- 當 spider 物件被關閉的時候呼叫
Spider 目錄
- 對應的是資料夾 spider 下的檔案
- _ init _：初始化爬蟲名稱，start _urls 列表
- start_requests：生成 Requests 物件交給 Scrapy 下載並返回 response
- parse：根據返回的 response 解析出相應的 item，item 自動進入 pipeline：如果需要，解析 url，url自動交給 requests 模組，一直迴圈下去
- start_requests：此方法盡能被呼叫一次，讀取 start _urls 內容並啟動迴圈過程
- name：設定爬蟲名稱
- start_urls：設定開始第一批爬取的 url
- allow_domains：spider 允許去爬的域名列表
- start_request(self)：只被呼叫一次
- parse：檢測編碼
- log：日誌記錄

更多文章連結：Python 爬蟲隨筆

本筆記不允許任何個人和組織轉載

Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
利用scrapy建立初始Python爬蟲專案
2018-03-04
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
scrapy 框架新建一個爬蟲專案詳細步驟
2018-06-09
框架爬蟲
Python爬蟲教程-33-scrapy shell 的使用
2018-09-06
Python爬蟲
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
scrapy通用專案和爬蟲程式碼模板
2021-03-22
爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲

Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案

Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案

Scrapy 爬蟲框架專案的建立

Scrapy 爬蟲框架專案的開發

更多文章連結：Python 爬蟲隨筆

相關文章