爬蟲課程（六）｜Scrapy安裝以及目錄結構介紹

weixin_34162695發表於2017-10-29

原文網址 : https://blog.csdn.net/weixin_34162695/article/details/87882384

scrapy架構圖

一、Scrapy安裝

如果順利的話，直接使用下面的命令即可安裝。

方法1：使用pip安裝：pip install Scrapy。

方法2（推薦）：使用國內豆瓣源進行安裝，非常快：pip install -i https://pypi.douban.com/simple/ scrapy

二、Scrapy目錄結構介紹

接下來以爬取某人的知乎回答內容為例來講述Scrapy各目錄的作用。

2.1、建立專案

在開始爬取之前，我們必須建立一個新的Scrapy專案。進入我們打算儲存程式碼的目錄中，執行下列命令:

scrapy startproject tutorial

該命令將會建立包含下列內容的tutorial目錄：

Scrapy目錄結構

這些檔案分別是:

1）scrapy.cfg: 專案的配置檔案，現在可以先忽略。

2）tutorial/: 該專案的python模組。

3）tutorial/items.py: 專案中的item檔案。

Item 是儲存爬取到的資料的容器；其使用方法和python字典類似，並且提供了額外保護機制來避免拼寫錯誤導致的未定義欄位錯誤。

類似在ORM中做的一樣，可以通過建立一個 scrapy.Item 類，並且定義型別為 scrapy.Field 的類屬性來定義一個Item。

首先根據需要從https://www.zhihu.com/people/huangxiaoguai/answers（我的知乎回答url）獲取到的資料對item進行建模。我們需要從知乎回答中獲取回答內容，回答的時間，回答被點贊數。對此，在item中定義相應的欄位。編輯 tutorial 目錄中的 items.py 檔案:

知乎回答item

4）tutorial/pipelines.py: 專案中的pipelines檔案。

Scrapy提供了pipeline模組來執行儲存資料的操作。在建立的 Scrapy 專案中自動建立了一個 pipeline.py 檔案，同時建立了一個預設的 Pipeline 類。比如我們要把item提取的資料儲存到mysql資料庫，可以如下編寫：

利用pipelines儲存資料

5）tutorial/settings.py: 專案的設定檔案。

settings.py是Scrapy中比較重要的配置檔案，裡面可以設定的內容非常之多。比如我們在前面提到的在pipelines.py中編寫了把資料儲存到mysql資料的class，那麼怎麼樣才能使得這個class執行呢？就可以在settings設定，如下：

專案的設定檔案settings

6）tutorial/spiders/: 放置spider程式碼的目錄。

這個很好理解，如下圖，我們後面的示例，爬取豆瓣、微博、知乎的爬蟲程式碼檔案都存放在這個資料夾下的。

spider程式碼

7）tutorial/middlewares.py：中介軟體，這塊在很後面才會用到，先不介紹。

現在如果對上面各個結構理解的不是很清楚沒關係，在後面的文章中我會通過爬取知乎回答、微博、豆瓣讀書三個示例詳細講解Scrapy各個目錄結構的作用以及它們是如何配合完成從開啟一個網站到把我們需要的資料儲存到資料庫的。

相關文章

Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
0章 RxJava2課程目錄介紹
2019-05-13
RxJava
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
Linux具體目錄結構介紹！
2022-05-12
Linux
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
WSL 2 的安裝過程（以及介紹）
2022-06-21
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
爬蟲介紹
2024-03-31
爬蟲
介紹一款能取代 Scrapy 的 Python 爬蟲框架 - feapder
2021-04-24
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
課程介紹
2024-06-21
postgre目錄結構簡介
2019-06-15
Macbook磁碟系統結構/檔案/目錄介紹分析
2023-12-05
Mac
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
OpenGL Android課程六：介紹紋理過濾
2019-02-24
Android
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
邏輯課程目錄
2024-09-15
數學課程目錄
2024-09-15
寫作課程目錄
2024-09-15
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
vue 原始碼學習（一）目錄結構和構建過程簡介
2019-02-16
Vue原始碼
DB2目錄結構簡介
2018-04-22
DB2
MySQL 8.0 目錄介紹
2020-07-27
MySql
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
【上課課件整理複習】第七章 Scrapy爬蟲框架(3)
2020-12-11
爬蟲框架
scrapy的簡介與安裝
2018-08-29
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架