做一個有產品思維的研發：Scrapy安裝

獵手家園發表於2019-04-28

原文網址 : https://www.cnblogs.com/hunttown/p/10781633.html

每天10分鐘，解決一個研發問題。

如果你想了解我在做什麼，請看《做一個有產品思維的研發：課程大綱》傳送門：https://www.cnblogs.com/hunttown/p/10490965.html

今天我們說一下Scrapy爬蟲：

Scrapy 在 Python 2.7 和 Python 3.3 或者更高版本上執行，他是用純 Python 編寫的，並且依賴於一些關鍵的 Python 包（其中包括）：

1、lxml ，一個高效的XML和HTML解析器
2、parsel ，一個基於 lxml 的 HTML / XML 資料提取庫
3、w3lib ，一個用於處理URL和網頁編碼的多用途助手
4、twisted，一個非同步的網路框架
5、cryptography 和 pyOpenSSL ，以處理各種網路級安全需求

Scrapy 經過測試支援的最低版本為：

a. Twisted 14.0
b. lxml 3.4
c. pyOpenSSL 0.14

一、推薦使用Linux安裝，大家可以安裝一個虛擬機器來做

1、VMWare安裝CentOS 6.5教程

二、Lniux環境安裝完畢以後，還需要安裝pip，這個是下面要用到的命令

2、CentOS6.5安裝pip教程

三、安裝依賴

[MyCentOS6 ~]$ yum install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

四、由於pyphon3在安裝pip的時候安裝好了，這裡我們直接安裝scrapy

[MyCentOs6 ~]$ pip install scrapy

五、安裝完以後還需要安裝一些將來要用到的軟體

1、Linux安裝simplejson教程

六、建立一個爬蟲專案

[MyCentOs6 ~]$ scrapy startproject tutorial

然後在 tutorial / spiders 目錄下建立 quotes_spider.py 檔案：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

上面的 Spider 繼承了 scrapy.Spider 並定義了一些屬性和方法：
　　a. name：標識爬蟲。它在專案中必須是唯一的，也就是說，您不能為不同的 Spider 設定相同的名稱。
　　b. start_requests()：必須返回一個可迭代的 Requests（您可以返回一個 request 列表或寫一個生成器函式），Spider將開始抓取。後續請求將從這些初始請求中連續生成。
　　c. parse()：被呼叫來處理 response 的方法， response 由每個 request 下載生成。 response 引數是一個 TextResponse 的例項，它儲存頁面內容，並具有更多有用的方法來處理它。

執行爬蟲：

[MyCentOS6 ~]$ scrapy crawl quotes

如果你想把資料儲存到一個檔案中：

[MySentOS6 ~]$ scrapy crawl quotes -o quotes.json

今日總結：

1. 最初的的方式是使用urllib2，讀取url解析html，然後透過正規表示式匹配出想要的資料。

2. 現在的Scrapy，Python開發的一個快速、高層次的web抓取框架，用於抓取web站點並從頁面中提取結構化的資料，Scrapy的用途非常廣泛。

做一個有產品思維的研發：打包
2019-04-24
做一個有產品思維的研發：開發
2019-04-22
做一個有產品思維的研發：程式碼生成
2019-04-22
做一個有產品思維的研發：課程架構
2019-03-08
架構
做一個有產品思維的研發：技術選型
2019-04-19
做一個有產品思維的研發：邏輯設計
2019-04-19
做一個有產品思維的研發：庫表設計
2019-04-22
做一個有產品思維的研發：全部課程介紹
2019-03-07
做一個有產品思維的研發：部署（Tomcat配置，Nginx配置，JDK配置）
2019-04-24
TomcatNginxJDK
做一個有產品思維的研發：資料視覺化系統架構
2019-04-17
視覺化架構
工程師思維，做不出好產品？
2018-03-19
工程師
淺析工具思維、產品思維、品牌思維與定位
2023-04-28
程式設計師成長思維：把自己當做產品來發展
2021-01-14
程式設計師
思維體系---技術思維、業務資料思維、產品思維、複合思維
2021-09-09
NPDP|產品經理最需要具備的思維有哪些?
2022-05-11
安全產品經理的思維模式
2018-05-14
模式
什麼是產品思維和專案思維？ - Shreyas
2021-12-17
新產品研發管理的需求來自哪些維度
2024-11-26
AI 時代下的產品思維（一）：AI不是神
2019-12-24
AI
樑寧-產品思維-筆記
2018-07-20
筆記
基於精益思維提升產品包裝設計水平
2023-10-10
Facebook產品設計人談什麼是產品思維？
2021-07-18
產品設計中的地圖學思維
2020-11-01
地圖
敏捷是扼殺產品思維的兇手？
2021-08-29
敏捷
一個做資料產品的不太前的前端
2019-02-26
前端
服裝產業發展思維及變革之路
2022-04-24
產業
思否有約丨夏鍅，做個一生平凡的開發者
2020-05-29
十年從產品感悟，萬字好文|產品日常思維47問
2021-04-03
產品團隊管理 - 統一研發環境，提效研發過程
2018-04-04
產品與研發相處之道
2023-01-11
scrapy的簡介與安裝
2018-08-29
安裝scrapy失敗
2019-01-21
Ubuntu 安裝 SCRAPY 方法
2019-11-08
Ubuntu
產品思維使人做出高質量的決策(1)
2021-02-28
樑寧產品思維30講學習筆記
2018-09-16
筆記
市場變化驅動產品思維升級
2019-10-14
[譯] 產品管理思維模式適合每一個人
2019-01-02
模式
哪個多維分析產品的效能最好
2020-05-13

做一個有產品思維的研發：Scrapy安裝

相關文章