爬蟲學習筆記3（Scrapy安裝及基本使用）

江先生發表於2018-01-16

人生苦短，我用Python

Scrapy安裝

1、windows下安裝流程：

命令列執行pip Install scrapy安裝scrapy，如果你已經配置過環境變數，則任意開啟命令列視窗，輸入pip install scrapy命令，則可以執行安裝。若沒有配置過環境變數，則進入到你python的安裝路徑下，shift+右鍵，在此處開啟命令列視窗，然後輸入pip install scrapy安裝。

特別說明：windows下安裝，因為某些包不相容，會出現安裝失敗的情況，一般是twisted安裝失敗，當然也會可能其他包安裝失敗，具體情況根據自己安裝提示。若twisted安裝失敗，則去Python Extension Packages for Windows地址去搜尋twisted，選好自己對應的版本，不然會安裝失敗，下載完之後，到下載檔案所在位置，shift+右鍵，在此處開啟命令列視窗，輸入pip install xxx.whl（完整檔名）。安裝完成之後，開啟命令列：輸入scrapy -h驗證是否安裝成功！若提示未成功，則重新執行pip install scrapy命令。

2、Mac系統安裝流程

可以直接使用pip install scrapy進行安裝

如果沒有安裝pip，可是使用以下命令列語句先安裝pip：

Scrapy爬蟲的使用

一個最基本的爬蟲只需要兩部分組成：Spider（爬蟲）、Pipeline（管道）

Spider（爬蟲）：定義瞭如何爬取某個網站，包括了爬取的動作（例如是否跟進連結）以及如何從網頁的內容中提取結構化資料（爬取item）。簡單來說，Spider就是定義爬取的動作及分析某個網頁的地方。

Pipeline（管道）：每個專案管道元件是一個實現簡單方法的Python類。他們接受一個專案並對其執行操作，還決定該專案是否應該繼續通過流水線或被丟棄並且不再被處理。

Pipeline（管道的作用）：

Item管道的主要責任是負責處理由蜘蛛從網頁中抽取的item,它的主要任務是清洗、驗證和儲存資料。當頁面被蜘蛛解析後，將被髮送到item管道，並經過幾個特定的次序處理資料。

專案管道的用途：

清理HTML資料
驗證抓取的資料（檢查專案是否包含特定欄位）
檢查重複
將刮取的專案儲存在資料庫

第一個Scrapy專案

1、在你要存放專案的目錄下，shift+右鍵在此處開啟命令列，然後輸入：scrapy startproject MyFirstDemo,建立成功，提示如圖所示：

scrapy 框架檔案解析：

MyFirstDemo/:該專案的Python模組，之後將在此處加入程式碼
MyFirstDemo/spiders/:放置spider程式碼的目錄，在命令列使用“scrapy genspider+爬蟲名”生成的--spider檔案將會被放在此目錄下。
MyFirstDemo/items.py：專案中的item檔案
MyFirstDemo/pipelines.py:專案中的pipelines檔案
MyFirstDemo/settings.py:專案的設定檔案
scrapy.cfg:專案的配置檔案，一般不需要修改，也不能刪除

建立spider檔案：在cmd中切換到MyFirstDemo檔案中，輸入“scrapy genspider spider_myfirstdemo baidu.com”，在spider下面生成spider_city_58檔案，程式碼如下：

Scrapy基本方法和屬性：

爬蟲名稱：name屬性
啟動方法：start_requests(),或start_urls()啟動
預設解析方法：parse()
啟動連結列表：start_urls()屬性

Python scrapy爬蟲學習筆記01
2017-11-01
Python爬蟲筆記
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
爬蟲學習之基於Scrapy的網路爬蟲
2016-07-13
爬蟲
分散式爬蟲學習筆記
2017-08-13
分散式爬蟲筆記
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Python 爬蟲 (六) -- Scrapy 框架學習
2017-08-28
Python爬蟲框架
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
scrapy學習筆記
2016-10-12
筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Docker 學習筆記-基本概念與安裝
2024-10-08
Docker筆記
scrapy爬蟲
2012-05-09
爬蟲
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
Python爬蟲學習筆記（1）爬取知乎使用者資訊
2018-01-12
Python爬蟲筆記
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
安裝Scrapy（Windows下Python的爬蟲環境）
2018-01-01
WindowsPython爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Scrapy 框架 (學習筆記-1)
2019-08-17
框架筆記
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
《Python3 網路爬蟲開發實戰》—學習筆記
2019-07-30
Python爬蟲筆記
爬蟲學習筆記（2）使用MongoDB儲存拉鉤資料
2018-01-12
爬蟲筆記MongoDB
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Redis學習筆記(01-基本概念及安裝)
2018-05-26
Redis筆記
使用scrapy搭建大型爬蟲系統
2017-01-15
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲學習日記（六）
2019-01-14
爬蟲

爬蟲學習筆記3（Scrapy安裝及基本使用）

Scrapy安裝

Scrapy爬蟲的使用

第一個Scrapy專案

相關文章