爬蟲課程(六)|Scrapy安裝以及目錄結構介紹
一、Scrapy安裝
如果順利的話,直接使用下面的命令即可安裝。
方法1:使用pip安裝:pip install Scrapy。
方法2(推薦):使用國內豆瓣源進行安裝,非常快:pip install -i https://pypi.douban.com/simple/ scrapy
二、Scrapy目錄結構介紹
接下來以爬取某人的知乎回答內容為例來講述Scrapy各目錄的作用。
2.1、建立專案
在開始爬取之前,我們必須建立一個新的Scrapy專案。 進入我們打算儲存程式碼的目錄中,執行下列命令:
scrapy startproject tutorial
該命令將會建立包含下列內容的tutorial目錄:
這些檔案分別是:
1)scrapy.cfg: 專案的配置檔案,現在可以先忽略。
2)tutorial/: 該專案的python模組。
3)tutorial/items.py: 專案中的item檔案。
Item 是儲存爬取到的資料的容器;其使用方法和python字典類似, 並且提供了額外保護機制來避免拼寫錯誤導致的未定義欄位錯誤。
類似在ORM中做的一樣,可以通過建立一個 scrapy.Item 類, 並且定義型別為 scrapy.Field 的類屬性來定義一個Item。
首先根據需要從https://www.zhihu.com/people/huangxiaoguai/answers(我的知乎回答url)獲取到的資料對item進行建模。我們需要從知乎回答中獲取回答內容,回答的時間,回答被點贊數。 對此,在item中定義相應的欄位。編輯 tutorial 目錄中的 items.py 檔案:
4)tutorial/pipelines.py: 專案中的pipelines檔案。
Scrapy提供了pipeline模組來執行儲存資料的操作。在建立的 Scrapy 專案中自動建立了一個 pipeline.py 檔案,同時建立了一個預設的 Pipeline 類。比如我們要把item提取的資料儲存到mysql資料庫,可以如下編寫:
5)tutorial/settings.py: 專案的設定檔案。
settings.py是Scrapy中比較重要的配置檔案,裡面可以設定的內容非常之多。比如我們在前面提到的在pipelines.py中編寫了把資料儲存到mysql資料的class,那麼怎麼樣才能使得這個class執行呢?就可以在settings設定,如下:
6)tutorial/spiders/: 放置spider程式碼的目錄。
這個很好理解,如下圖,我們後面的示例,爬取豆瓣、微博、知乎的爬蟲程式碼檔案都存放在這個資料夾下的。
7)tutorial/middlewares.py:中介軟體,這塊在很後面才會用到,先不介紹。
現在如果對上面各個結構理解的不是很清楚沒關係,在後面的文章中我會通過爬取知乎回答、微博、豆瓣讀書三個示例詳細講解Scrapy各個目錄結構的作用以及它們是如何配合完成從開啟一個網站到把我們需要的資料儲存到資料庫的。
相關文章
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- 0章 RxJava2課程目錄介紹RxJava
- 爬蟲代理 Scrapy 框架詳細介紹 2爬蟲框架
- Python爬蟲之scrapy框架簡介及環境安裝Python爬蟲框架
- Linux具體目錄結構介紹!Linux
- Windows下安裝配置爬蟲工具Scrapy及爬蟲環境Windows爬蟲
- WSL 2 的安裝過程(以及介紹)
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹Python爬蟲框架
- 爬蟲介紹爬蟲
- 介紹一款能取代 Scrapy 的 Python 爬蟲框架 - feapderPython爬蟲框架
- 爬蟲--Scrapy簡易爬蟲爬蟲
- 課程介紹
- postgre目錄結構簡介
- Macbook磁碟系統結構/檔案/目錄介紹分析Mac
- OpenGL Android課程六:介紹紋理過濾Android
- Python爬蟲教程-01-爬蟲介紹Python爬蟲
- Scrapy爬蟲框架爬蟲框架
- Scrapy爬蟲-草稿爬蟲
- 邏輯課程目錄
- 數學課程目錄
- 寫作課程目錄
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- Python爬蟲—Scrapy框架Python爬蟲框架
- 【Python篇】scrapy爬蟲Python爬蟲
- python爬蟲Scrapy框架Python爬蟲框架
- scrapy爬蟲代理池爬蟲
- 爬蟲實戰scrapy爬蟲
- Python爬蟲教程-34-分散式爬蟲介紹Python爬蟲分散式
- Python 爬蟲(六):使用 Scrapy 爬取去哪兒網景區資訊Python爬蟲
- vue 原始碼學習(一) 目錄結構和構建過程簡介Vue原始碼
- DB2目錄結構簡介DB2
- MySQL 8.0 目錄介紹MySql
- scrapy之分散式爬蟲scrapy-redis分散式爬蟲Redis
- Scrapy框架的使用之Scrapy通用爬蟲框架爬蟲
- 【上課課件整理複習】第七章 Scrapy爬蟲框架(3)爬蟲框架
- scrapy的簡介與安裝
- scrapy + mogoDB 網站爬蟲Go網站爬蟲
- Scrapy爬蟲框架的使用爬蟲框架