Python乾貨：用Scrapy爬電商網站

資料星河發表於2018-09-04

原文網址 : https://juejin.im/post/5b8dfd21f265da432008af71

電商老闆，經理都可能需要爬自己經營的網站，目的是監控網頁，追蹤網站流量，尋找優化機會等。

對於其中的每一項，均可以通過離散工具，網路抓取工具和服務來幫助監控網站。只需相對較少的開發工作，就可以建立自己的站點爬網程式和站點監視系統。

構建自定義的爬蟲站點和監控程式, 第一步是簡單地獲取網站上所有頁面的列表。本文將介紹如何使用Python程式語言和一個名為Scrapy的整潔的Web爬網框架來輕鬆生成這些頁面的列表。

你需要一個伺服器，Python和Scrapy

這是一個開發專案。需要安裝Python和Scrapy的伺服器。還需要通過終端應用程式或SSH客戶端對該伺服器的命令列進行訪問。還可以從Python.org的文件部分獲取有關安裝Python的資訊。Scrapy網站還有很好的安裝文件。請確認您的伺服器已準備好安裝Python和Scrapy。

建立一個Scrapy專案

使用像Putty for Windows這樣的SSH客戶端或Mac，Linux計算機上的終端應用程式，導航到要保留Scrapy專案的目錄。使用內建的Scrapy命令startproject，我們可以快速生成所需的基本檔案。

本文將抓取一個名為Business Idea Daily的網站，因此將該專案命名為“bid”。

生成一個新的Scrapy Web Spider

為方便起見，Scrapy還有另一個命令列工具，可以自動生成新的Web Spider。

scrapy genspider -t crawl getbid businessideadaily.com

第一個術語，scrapy，參考Scrapy框架。接下來，有genspider命令告訴Scrapy我們想要一個新的web spider，或者，如果您願意，還想要一個新的網路爬蟲。

-t告訴Scrapy我們想要選擇一個特定的模板。genspider命令可以生成四個通用Web Spider模板中的任何一個：basic，crawl，csvfeed和xmlfeed。直接在-t之後，我們指定了想要的模板。在這個例子中，我們將建立被Scrapy稱為CrawlSpider的模板。 “getbid”這個詞就是spider的名字。

該命令的最後一部分告訴Scrapy我們想要抓取哪個網站。框架將使用它來填充一些新spider的引數。

定義Items

在Scrapy中，Items是組織我們spider爬行特定網站時收集東西的方式/模型。雖然我們可以很容易地完成我們的目標- 獲取特定網站上所有頁面的列表- 不使用Items，但如果我們想稍後擴充套件我們的爬蟲，則不使用Items可能會限制我們。

要定義一個Item，只需開啟我們生成專案時建立的Scrapy的items.py檔案。在其中，將有一個名為BidItem的類。類名基於我們為專案提供的名稱。

`class BidItem(scrapy.Item):

define the fields for your item here like:

name = scrapy.Field()

pass`

將pass替換為名為url的新欄位的定義。

url = scrapy.Field()

儲存做好的文件

構建Web Spider

接下來開啟專案中的蜘蛛目錄，查詢生成的新Spider Scrapy。在這個例子中，這個蜘蛛叫做getbid，所以檔案是getbid.py。

在編輯器中開啟此檔案時，您應該看到如下所示的內容。

# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from bid.items import BidItem class GetbidSpider(CrawlSpider): name = 'getbid' allowed_domains = ['businessideadaily.com'] start_urls = ['http://www.businessideadaily.com/'] rules = ( Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True), ) def parse_item(self, response): i = BidItem() #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract() #i['name'] = response.xpath('//div[@id="name"]').extract() #i['description'] = response.xpath('//div[@id="description"]').extract() return i

我們需要對為我們生成的程式碼Scrapy進行一些小的更改。首先，我們需要在規則下修改LinkExtractor的引數。刪除括號中的所有內容。

Rule(LinkExtractor(), callback='parse_item', follow=True),

通過此更新，我們的spider將在起始頁面（主頁）上找到每個連結，將單個連結傳遞給parse_item方法，並按照指向網站下一頁的連結來確保我們獲取每個連結頁面。

接下來，我們需要更新parse_item方法。刪除所有註釋行。這些線條只是Scrapy為我們提供的例子。

def parse_item(self, response): i = BidItem() return i

我喜歡使用有意義的變數名。所以我要將i更改為href，這是HTML連結中屬性的名稱，如果有的話，它將儲存目標連結的地址。

def parse_item(self, response): href = BidItem() return href

現在奇蹟發生了，我們捕獲頁面URL為Items。

def parse_item(self, response): href = BidItem() href['url'] = response.url return href

這就對了。新Spider已經準備好爬行了。

抓取網站，獲取資料

從命令列，我們想要導航到我們的專案目錄。進入該目錄後，我們將執行一個簡單的命令來傳送我們的新蜘蛛並獲取一個頁面列表。

scrapy crawl getbid -o 012916.csv

該命令有幾個部分。首先，我們參考Scrapy框架。我們告訴Scrapy我們想爬行。我們指定要使用getbid蜘蛛。

-o告訴Scrapy輸出結果。該命令的012916.csv部分告訴Scrapy將結果放在帶有該名稱的逗號分隔值（.csv）檔案中。

在示例中，Scrapy將返回三個頁面地址。我為這個例子選擇這個網站的原因之一是它只有幾頁。如果你在一個有數千頁的網站上瞄準一個類似的蜘蛛，它將需要一些時間來執行，但它會返回一個類似的響應。

url

businessideadaily.com/auth/login

businessideadaily.com/

businessideadaily.com/password/em…

只需幾行程式碼，您就可以為自己的站點監控應用程式奠定基礎。

本文由資料星河原創

scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
乾貨分享！Python網路爬蟲實戰
2020-08-07
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Scrapy使用隨機User-Agent爬取網站
2018-08-31
隨機網站
教你用python爬蟲爬blibili網站彈幕！
2021-03-22
Python爬蟲網站
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python學習：爬個電影資源網站
2018-03-16
Python網站
IPIDEA乾貨|Java爬蟲與Python爬蟲的區別
2023-05-08
IdeaJava爬蟲Python
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Selenium + Scrapy爬取某商標資料
2018-06-27
乾貨 | 雲解析DNS之網站監控
2019-07-04
DNS網站
【純乾貨】網站運營思路，如何用網站賺到錢
2020-06-12
網站
scrapy爬取豆瓣電影資料
2021-09-11
應用最為廣泛的電商網站
2019-01-07
網站
Scrapy 爬取不同網站及自動執行的經驗分享
2020-11-16
網站
使用 Python 爬取網站資料
2024-07-27
Python網站
【乾貨】程式設計師必逛的網站
2019-04-10
程式設計師網站
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
利用scrapy建立初始Python爬蟲專案
2018-03-04
Python爬蟲
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲

Python乾貨：用Scrapy爬電商網站

相關文章