分散式通用爬蟲管理平臺Crawlab

MarvinZhang發表於2019-03-06

原文網址 : https://juejin.im/post/5c7f9014f265da2d9d1cd34b

Crawlab

基於Celery的爬蟲分散式爬蟲管理平臺，支援多種程式語言以及多種爬蟲框架.

安裝

# 安裝後臺類庫
pip install -r ./crawlab/requirements.txt
複製程式碼

# 安裝前臺類庫
cd frontend
npm install
複製程式碼

配置

請更改配置檔案config.py，配置API和資料庫連線.

快速開始

# 執行所有服務
python manage.py run_all
複製程式碼

# 執行前端
cd frontend
npm run dev
複製程式碼

截圖

首頁

爬蟲列表

爬蟲詳情 - 概覽

任務詳情 - 抓取結果

架構

Crawlab的架構跟Celery非常相似，但是加入了包括前端、爬蟲、Flower在內的額外模組，以支援爬蟲管理的功能。

節點

節點其實就是Celery中的Worker。一個節點執行時會連線到一個任務佇列（例如Redis）來接收和執行任務。所有爬蟲需要在執行時被部署到節點上，使用者在部署前需要定義節點的IP地址和埠。

爬蟲

自動發現

在config.py檔案中，修改變數PROJECT_SOURCE_FILE_FOLDER作為爬蟲專案所在的目錄。Crawlab後臺程式會自動發現這些爬蟲專案並儲存到資料庫中。是不是很方便？

部署爬蟲

所有爬蟲需要在抓取前被部署當相應當節點中。在"爬蟲詳情"頁面點選"Deploy"按鈕，爬蟲將被部署到所有有效到節點中。

執行爬蟲

部署爬蟲之後，你可以在"爬蟲詳情"頁面點選"Run"按鈕來啟動爬蟲。一個爬蟲任務將被觸發，你可以在任務列表頁面中看到這個任務。

任務

任務被觸發並被節點執行。使用者可以在任務詳情頁面中看到任務到狀態、日誌和抓取結果。

後臺應用

這是一個Flask應用，提供了必要的API來支援常規操作，例如CRUD、爬蟲部署以及任務執行。每一個節點需要啟動Flask應用來支援爬蟲部署。執行python manage.py app或python ./bin/run_app.py來啟動應用。

中間者

中間者跟Celery中定義的一樣，作為執行非同步任務的佇列。

前端

前端其實就是一個基於Vue-Element-Admin的單頁應用。其中重用了很多Element-UI的控制元件來支援相應的展示。

資料關聯

任務是利用python的subprocess模組中的Popen來實現的。任務ID將以環境變數CRAWLAB_TASK_ID的形式存在於爬蟲任務執行的程式中，並以此來關聯抓取資料。

在你的爬蟲程式中，你需要將CRAWLAB_TASK_ID的值以task_id作為可以存入資料庫中。這樣Crawlab就直到如何將爬蟲任務與抓取資料關聯起來了。當前，Crawlab只支援MongoDB。

import os
from pymongo import MongoClient

MONGO_HOST = '192.168.99.100'
MONGO_PORT = 27017
MONGO_DB = 'crawlab_test'

# scrapy example in the pipeline
class JuejinPipeline(object):
    mongo = MongoClient(host=MONGO_HOST, port=MONGO_PORT)
    db = mongo[MONGO_DB]
    col_name = os.environ.get('CRAWLAB_COLLECTION')
    if not col_name:
        col_name = 'test'
    col = db[col_name]

    def process_item(self, item, spider):
        item['task_id'] = os.environ.get('CRAWLAB_TASK_ID')
        self.col.save(item)
        return item
複製程式碼

與其他框架比較

限制以及有一些爬蟲管理框架了，因此為啥還要用Crawlab？

因為很多現有當平臺都依賴於Scrapyd，限制了爬蟲的程式語言以及框架，爬蟲工程師只能用scrapy和python。當然，scrapy是非常優秀的爬蟲框架，但是它不能做一切事情。

Crawlab使用起來很方便，也很通用，可以適用於幾乎任何主流語言和框架。它還有一個精美的前端介面，讓使用者可以方便的管理和執行爬蟲。

框架	型別	分散式	前端	依賴於Scrapyd
Crawlab	管理平臺	Y	Y	N
Gerapy	管理平臺	Y	Y	Y
SpiderKeeper	管理平臺	Y	Y	Y
ScrapydWeb	管理平臺	Y	Y	Y
Scrapyd	網路服務	Y	N	N/A

TODOs

後端

檔案管理
MySQL資料庫支援
重跑任務
節點監控
更多爬蟲例子

前端

任務資料統計
表格過濾
多語言支援 (中文)
登入和使用者管理
全域性搜尋

歡迎大家來加入Crawlab開發交流群，加群請發申請

爬蟲平臺Crawlab v0.2釋出
2019-05-10
爬蟲
Crawlab Lite 正式釋出，更輕量的爬蟲管理平臺
2020-07-15
爬蟲
一款分散式爬蟲管理平臺，支援多種語言和框架
2024-06-27
分散式爬蟲框架
爬蟲平臺Crawlab核心原理--自動提取欄位演算法
2019-06-04
爬蟲演算法
分散式爬蟲的部署之Gerapy分散式管理
2018-06-06
分散式爬蟲
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
分散式爬蟲
2019-03-05
分散式爬蟲
分散式爬蟲原理
2019-02-16
分散式爬蟲
爬蟲管理平臺以及wordpress本地搭建
2020-08-13
爬蟲
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
分散式爬蟲的部署之Scrapyd分散式部署
2018-05-30
分散式爬蟲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲
十分鐘搞懂分散式爬蟲
2019-08-11
分散式爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
Elixir 分散式平臺
2018-05-15
分散式
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
使用Docker Swarm搭建分散式爬蟲叢集
2018-10-14
DockerSwarm分散式爬蟲
分散式爬蟲的部署之Scrapyd批量部署
2018-06-04
分散式爬蟲
python分散式爬蟲如何設計架構？
2021-09-11
Python分散式爬蟲架構
新一代爬蟲平臺！不寫程式碼即可完成爬蟲...
2024-05-30
爬蟲
分散式流平臺Kafka
2020-11-13
分散式Kafka
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
分散式爬蟲的部署之Scrapyd對接Docker
2018-06-04
分散式爬蟲Docker
分散式爬蟲有哪些使用代理IP的方法？
2021-09-11
分散式爬蟲
豆瓣預告片爬蟲以及管理後臺
2018-04-27
爬蟲
Win10+Python3.6配置Spark建立分散式爬蟲
2019-02-02
Win10PythonSpark分散式爬蟲
小白也能看懂！教你如何快速搭建實用的爬蟲管理平臺
2020-12-01
爬蟲