Python pyspider 安裝與開發

mimvp發表於2017-08-15

PySpider 簡介

PySpider是一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分散式架構，支援多種資料庫後端，強大的WebUI支援指令碼編輯器、任務監視器，專案管理器以及結果檢視器。
PySpider 來源於以前做的一個垂直搜尋引擎使用的爬蟲後端。我們需要從200個站點（由於站點失效，不是都同時啦，同時有100+在跑吧）採集資料，並要求在5分鐘內將對方網站的更新更新到庫中。所以，靈活的抓取控制是必須的。
同時，由於100個站點，每天都可能會有站點失效或者改版，所以需要能夠監控模板失效，以及檢視抓取狀態。
為了達到5分鐘更新，我們使用抓取最近更新頁上面的最後更新時間，以此來判斷頁面是否需要再次抓取。
可見，這個專案對於爬蟲的監控和排程要求是非常高的。

PySpider 中文網：http://www.pyspider.cn
PySpider 官網：http://docs.pyspider.org
PySpider 演示：http://demo.pyspider.org
PySpider 原始碼：https://github.com/binux/pyspider

PySpider 特性

python 指令碼控制，可以用任何你喜歡的html解析包（內建 pyquery）
WEB 介面編寫除錯指令碼、起停指令碼、監控執行狀態，檢視活動歷史，獲取結果產出
資料儲存支援MySQL、MongoDB、Redis、SQLite、 ElasticSearch; PostgreSQL 及 SQLAlchemy
佇列服務支援RabbitMQ、Beanstalk、Redis、Kombu
支援抓取 JavaScript 的頁面
元件可替換，支援單機/分散式部署，支援 Docker 部署
強大的排程控制，支援超時重爬及優先順序設定
支援Python 2.{6, 7}, 3.{3, 4, 5, 6}

PySpider 安裝

1） pip 安裝
pip可以在以下版本的CPython下執行：2.6, 2.7, 3.1, 3.2, 3.3, 3.4 和 pypy.
pip可以在Unix/Linux、Mac OS X、Windows系統中執行.
a）指令碼安裝
python get-pip.py
如果 setuptools (或 distribute) 未安裝， get-pip.py
會自動為你安裝 setuptools
如果需要升級 setuptools (或 distribute)，執行 pip install -U setuptools

b）命令安裝
sudo apt-get install python-pip   // Debian、Ubuntu
sudo yum install python-pip   // CentOS、Redhat、Fedora

2）PhantomJS 安裝
PhantomJS 是一個基於 WebKit 的伺服器端 JavaScript API。它全面支援web而不需瀏覽器支援，其快速、原生支援各種Web標準：DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用於頁面自動化、網路監測、網頁截圖以及無介面測試等。支援Windows、Linux、Mac OS X等多作業系統。
PhantomJS 下載：http://phantomjs.org/download.html
PhantomJS不需要安裝，解壓後，配置環境變數後，便可直接使用，詳見 PhantomJS 安裝與開發
PhantomJS 安裝命令：
sudo apt-get install phantomjs   // Debian、Ubuntu
sudo pkg install phantomjs   // FreeBSD
brew install phantomjs   // Mac OS X

3）PySpider 安裝
PySpider 安裝的依賴包 requirements.txt

Flask>=0.10
Jinja2>=2.7
chardet>=2.2
cssselect>=0.9
lxml
pycurl
pyquery
requests>=2.2
tornado>=3.2
mysql-connector-python>=1.2.2
pika>=0.9.14
pymongo>=2.7.2
unittest2>=0.5.1
Flask-Login>=0.2.11
u-msgpack-python>=1.6
click>=3.3
SQLAlchemy>=0.9.7
six>=1.5.0
amqp>=1.3.0,<2.0
redis
redis-py-cluster
kombu
psycopg2
elasticsearch
tblib

PySpider 安裝命令：
pip install pyspider
Ubuntu 使用者，請提前安裝好以下支援類庫：
sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

4）驗證安裝成功
控制檯輸入命令：
pyspider all
使用瀏覽器訪問 http://localhost:5000

正常出現 PySpider 的頁面，那證明一切 OK

PySpider 示例

1）示例1：爬取米撲科技首頁（mimvp.com）

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-07-28 13:44:53
# Project: pyspiderdemo
# mimvp.com
 
from pyspider.libs.base_handler import *
 
 
class Handler(BaseHandler):
    crawl_config = {
    }
 
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl(`mimvp.com`, callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc(`a[href^="http"]`).items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc(`title`).text(),
        }

執行結果：

2）示例2：設定代理爬取網頁
PySpider 支援使用代理爬取網頁，其使用代理有兩種方式：
方式1：
–phantomjs-proxy TEXT phantomjs proxy ip:port
啟動命令例如：
pyspider –phantomjs-proxy “188.226.141.217:8080” all

方式2：
設定代理全域性變數，如下圖：
crawl_config = { `proxy` : `188.226.141.217:8080`}
示例程式碼：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-07-28 14:13:14
# Project: mimvp_proxy_pyspider
#
# mimvp.com
 
from pyspider.libs.base_handler import *
 
 
class Handler(BaseHandler):
    crawl_config = {
        `proxy` : `http://188.226.141.217:8080`,     # http
        `proxy` : `https://182.253.32.65:3128`      # https
    }
 
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl(`http://proxy.mimvp.com/exist.php`, callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc(`a[href^="http"]`).items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc(`title`).text(),
        }

執行結果：

Python requests 安裝與開發
2019-02-16
Python
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
【轉】CentOS 6.5安裝pyspider過程記錄
2016-09-14
CentOSIDE
安裝python-devel開發包
2015-01-13
Pythondev
Windows安裝Python開發環境
2024-11-08
WindowsPython開發環境
第一章 Python概述與開發環境安裝
2020-10-02
Python開發環境
安裝與配置Flutter開發環境
2019-03-21
Flutter開發環境
Python開發環境的安裝配置
2018-12-16
Python開發環境
Python整合開發環境安裝pycharm
2021-12-02
Python開發環境PyCharm
Python開發：windows下安裝twisted過程
2013-05-31
PythonWindows
『無為則無心』Python基礎 — 5、Python開發工具的安裝與使用
2021-06-23
Python
Python資料分析與挖掘實戰（開發流程及常用庫安裝）
2017-06-02
Python
Python的安裝與使用
2012-02-11
Python
C++ Qt開發：Qt的安裝與配置
2023-12-09
C++QT
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
Mac系統Python開發環境的安裝
2022-11-23
MacPython開發環境
Python開發最牛逼的IDE：Pycharm的安裝與使用！適合新手！
2019-08-27
PythonIDEPyCharm
Python splinter安裝與使用
2017-02-21
Python
Python開發環境—— jupyter Notebook 安裝使用
2018-01-15
Python開發環境
安卓開發工具安裝
2016-03-18
安卓
實驗一軟體開發文件與工具的安裝與使用
2020-11-23
Python 開發環境搭建(02)：Python 3.7 + Redhat 7 原始碼安裝
2019-02-02
Python開發環境Redhat原始碼
Mac OS X下開發軟體的安裝與配置
2017-12-27
Mac
Python 與 PyCharm 安裝詳細教程
2019-02-19
PythonPyCharm
Python安裝與Pycharm使用入門
2019-01-10
PythonPyCharm
【python與pycharm安裝教程，詳解】
2022-03-28
PythonPyCharm
python的安裝與簡單使用
2018-01-01
Python
WindowsService服務程式開發安裝和解除安裝
2018-11-22
Windows
Flutter開發環境安裝
2019-03-12
Flutter開發環境
node開發環境安裝
2019-01-22
開發環境
安裝OpenResty開發環境
2017-06-21
REST開發環境
Flask web 開發(1)：安裝
2016-08-04
FlaskWeb
安裝Java開發環境
2024-07-10
Java開發環境
[開發工具] RedisDesktopManager 安裝
2024-11-20
Redis
Python 開發環境搭建(03)：Linux 下 eclipse 安裝
2019-02-05
Python開發環境LinuxEclipse
在anaconda python開發套件下進行opencv的安裝
2015-11-08
Python套件OpenCV
Python paramiko模組的安裝與使用
2021-09-09
Python
Python第二課 -PyCharm安裝與配置
2020-12-17
PythonPyCharm

Python pyspider 安裝與開發

PySpider 簡介

PySpider 特性

PySpider 安裝

PySpider 示例

參考推薦：

相關文章