爬蟲代理 Scrapy 框架詳細介紹 2

Laical發表於2020-06-04

原文網址 : https://learnku.com/articles/45489

爬蟲框架

Scrapy終端是一個互動終端，我們可以在未啟動spider的情況下嘗試及除錯程式碼，也可以用來測試XPath或CSS表示式，檢視他們的工作方式，方便我們爬取的網頁中提取的資料。

如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPython 終端與其他相比更為強大，提供智慧的自動補全，高亮輸出，及其他特性。（推薦安裝IPython）

啟動Scrapy Shell

進入專案的根目錄，執行下列命令來啟動shell:

scrapy shell “http://www.itcast.cn/channel/teacher.shtml"

圖片描述

Scrapy Shell根據下載的頁面會自動建立一些方便使用的物件，例如 Response 物件，以及 Selector 物件 (對HTML及XML內容)。

當shell載入後，將得到一個包含response資料的本地 response 變數，輸入
response.body將輸出response的包體，輸出 response.headers 可以看到response的包頭。
輸入 response.selector 時，將獲取到一個response 初始化的類 Selector 的物件，此時可以通過使用
response.selector.xpath()或response.selector.css() 來對 response 進行查詢。
Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同樣可以生效（如之前的案例）。

Selectors選擇器

Scrapy Selectors 內建 XPath 和 CSS Selector 表示式機制

Selector有四個基本的方法，最常用的還是xpath:

xpath(): 傳入xpath表示式，返回該表示式所對應的所有節點的selector list列表
extract(): 序列化該節點為Unicode字串並返回list
css(): 傳入CSS表示式，返回該表示式所對應的所有節點的selector list列表，語法同 BeautifulSoup4
re(): 根據傳入的正規表示式對資料進行提取，返回Unicode字串list列表

XPath表示式的例子及對應的含義:

/html/head/title: 選擇文件中

標籤內的元素 /html/head/title/text(): 選擇上面提到的元素的文字 //td: 選擇所有的元素 //div[@class=”mine”]: 選擇所有具有 class=”mine” 屬性的 div 元素

嘗試Selector

我們用騰訊社招的網站http://hr.tencent.com/positio…舉例：

以後做資料提取的時候，可以把現在Scrapy Shell中測試，測試通過後再應用到程式碼中。

當然Scrapy Shell作用不僅僅如此，但是不屬於我們課程重點，不做詳細介紹。

官方文件：[http://scrapy-chs.readthedocs…

當Item在Spider中被收集之後，它將會被傳遞到Item Pipeline，這些Item Pipeline元件按定義的順序處理Item。

每個Item Pipeline都是實現了簡單方法的Python類，比如決定此Item是丟棄而儲存。以下是item pipeline的一些典型應用：

驗證爬取的資料(檢查item包含某些欄位，比如說name欄位)
查重(並丟棄)
將爬取結果儲存到檔案或者資料庫中

編寫item pipeline

編寫item pipeline很簡單，item pipiline元件是一個獨立的Python類，其中process_item()方法必須實現:

import something class SomethingPipeline(object): def init(self): # 可選實現，做引數初始化等 # doing something def process_item(self, item, spider): # item (Item 物件) – 被爬取的item # spider (Spider 物件) – 爬取該item的spider # 這個方法必須實現，每個item pipeline元件都需要呼叫該方法， # 這個方法必須返回一個 Item 物件，被丟棄的item將不會被之後的pipeline元件所處理。 return item def open_spider(self, spider): # spider (Spider 物件) – 被開啟的spider # 可選實現，當spider被開啟時，這個方法被呼叫。 def close_spider(self, spider): # spider (Spider 物件) – 被關閉的spider # 可選實現，當spider被關閉時，這個方法被呼叫

啟用一個Item Pipeline元件

為了啟用Item Pipeline元件，必須將它的類新增到 settings.py檔案ITEM_PIPELINES 配置，就像下面這個例子:

分配給每個類的整型值，確定了他們執行的順序，item按數字從低到高的順序，通過pipeline，通常將這些數字定義在0-1000範圍內（0-1000隨意設定，數值越低，元件的優先順序越高）

重新啟動爬蟲

將parse()方法改為入門簡介中最後思考中的程式碼，然後執行下面的命令：

scrapy crawl itcast

檢視當前目錄是否生成teacher.json

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
scrapy 框架新建一個爬蟲專案詳細步驟
2018-06-09
框架爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
介紹一款能取代 Scrapy 的 Python 爬蟲框架 - feapder
2021-04-24
Python爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Scrapy爬蟲框架如何使用代理進行採集
2022-02-22
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Cypress系列（2）- Cypress 框架的詳細介紹
2020-05-26
框架
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲介紹
2024-03-31
爬蟲
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
Scrapy 框架介紹之 Puppeteer 渲染
2020-05-27
框架
動態IP代理軟體有話說：天下爬蟲框架皆出Scrapy
2018-12-24
爬蟲框架
萬能除錯 | Python爬蟲Scrapy框架HTTP代理的配置與除錯
2022-12-14
除錯Python爬蟲框架HTTP
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
為什麼使用Scrapy框架來寫爬蟲？
2018-12-19
框架爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
爬蟲開發python工具包介紹（2）
2020-04-05
爬蟲Python
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
爬蟲實戰scrapy
2018-03-11
爬蟲