分散式爬蟲的部署之Scrapyd對接Docker

崔慶才丨靜覓發表於2018-06-04

原文網址 : https://juejin.im/post/5b14d2545188257d4c0a2e37

我們使用了Scrapyd-Client成功將Scrapy專案部署到Scrapyd執行，前提是需要提前在伺服器上安裝好Scrapyd並執行Scrapyd服務，而這個過程比較麻煩。如果同時將一個Scrapy專案部署到100臺伺服器上，我們需要手動配置每臺伺服器的Python環境，更改Scrapyd配置嗎？如果這些伺服器的Python環境是不同版本，同時還執行其他的專案，而版本衝突又會造成不必要的麻煩。

所以，我們需要解決一個痛點，那就是Python環境配置問題和版本衝突解決問題。如果我們將Scrapyd直接打包成一個Docker映象，那麼在伺服器上只需要執行Docker命令就可以啟動Scrapyd服務，這樣就不用再關心Python環境問題，也不需要擔心版本衝突問題。

接下來，我們就將Scrapyd打包製作成一個Docker映象。

一、準備工作

請確保本機已經正確安裝好了Docker。

二、對接Docker

新建一個專案，新建一個scrapyd.conf，即Scrapyd的配置檔案，內容如下：

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 10
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus複製程式碼

這裡實際上是修改自官方文件的配置檔案：https://scrapyd.readthedocs.io/en/stable/config.html#example-configuration-file，其中修改的地方有兩個。

max_proc_per_cpu=10，原本是4，即CPU單核最多執行4個Scrapy任務，也就是說1核的主機最多同時只能執行4個Scrapy任務，這裡設定上限為10，也可以自行設定。
bind_address = 0.0.0.0，原本是127.0.0.1，不能公開訪問，這裡修改為0.0.0.0即可解除此限制。

新建一個requirements.txt，將一些Scrapy專案常用的庫都列進去，內容如下：

requests
selenium
aiohttp
beautifulsoup4
pyquery
pymysql
redis
pymongo
flask
django
scrapy
scrapyd
scrapyd-client
scrapy-redis
scrapy-splash複製程式碼

如果執行的Scrapy專案還需要用到其他的庫，這些庫可以自行新增到此檔案中。

最後新建一個Dockerfile，內容如下：

FROM python:3.6
ADD . /code
WORKDIR /code
COPY ./scrapyd.conf /etc/scrapyd/
EXPOSE 6800
RUN pip3 install -r requirements.txt
CMD scrapyd複製程式碼

第一行的FROM是指在python:3.6這個映象上構建，也就是說在構建時就已經有了Python 3.6的環境。

第二行的ADD是將本地的程式碼放置到虛擬容器中。它有兩個引數：第一個引數是. ，即代表本地當前路徑；第二個引數/code代表虛擬容器中的路徑，也就是將本地專案所有內容放置到虛擬容器的/code目錄下。

第三行的WORKDIR是指定工作目錄，這裡將剛才新增的程式碼路徑設成工作路徑，這個路徑下的目錄結構和當前本地目錄結構是相同的，所以在這個目錄下可以直接執行庫安裝命令。

第四行的COPY是將當前目錄下的scrapyd.conf檔案複製到虛擬容器的/etc/scrapyd/目錄下，Scrapyd在執行的時候會預設讀取這個配置。

第五行的EXPOSE是宣告執行時容器提供服務埠，注意這裡只是一個宣告，執行時不一定會在此埠開啟服務。這個宣告的作用，一是告訴使用者這個映象服務的執行埠，以方便配置對映，二是在執行使用隨機埠對映時，容器會自動隨機對映EXPOSE的埠。

第六行的RUN是執行某些命令，一般做一些環境準備工作。由於Docker虛擬容器內只有Python 3環境，而沒有Python庫，所以我們執行此命令來在虛擬容器中安裝相應的Python庫，這樣專案部署到Scrapyd中便可以正常執行。

第七行的CMD是容器啟動命令，容器執行時，此命令會被執行。這裡我們直接用scrapyd來啟動Scrapyd服務。

基本工作完成了，我們執行如下命令進行構建：

docker build -t scrapyd:latest .複製程式碼

構建成功後即可執行測試：

docker run -d -p 6800:6800 scrapyd複製程式碼

開啟：http://localhost:6800，即可觀察到Scrapyd服務，如下圖所示。

這樣，Scrapyd Docker映象構建完成併成功執行。

我們可以將此映象上傳到Docker Hub。例如，我的Docker Hub使用者名稱為germey，新建一個名為scrapyd的專案，首先可以為映象打一個標籤來標識一下：

docker tag scrapyd:latest germey/scrapyd:latest複製程式碼

這裡請自行替換成你的專案名稱。

然後 Push 即可：

docker push germey/scrapyd:latest複製程式碼

之後在其他主機執行此命令即可啟動Scrapyd服務：

docker run -d -p 6800:6800 germey/scrapyd複製程式碼

Scrapyd成功在其他伺服器上執行。

三、結語

我們利用Docker解決了Python環境的問題。接下來，我們再解決批量部署Docker的問題。

本資源首發於崔慶才的個人部落格靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

分散式爬蟲的部署之Scrapyd分散式部署
2018-05-30
分散式爬蟲
分散式爬蟲的部署之Scrapyd批量部署
2018-06-04
分散式爬蟲
分散式爬蟲的部署之Gerapy分散式管理
2018-06-06
分散式爬蟲
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
分散式爬蟲
2019-03-05
分散式爬蟲
使用Docker Swarm搭建分散式爬蟲叢集
2018-10-14
DockerSwarm分散式爬蟲
Python在Windows系統下基於Scrapyd部署爬蟲專案(本地部署)
2018-03-22
PythonWindows爬蟲
分散式爬蟲原理
2019-02-16
分散式爬蟲
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
Python 實戰:用 Scrapyd 打造爬蟲控制檯
2018-10-30
Python爬蟲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
如何簡單高效地部署和監控分散式爬蟲專案
2019-03-02
分散式爬蟲
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
分散式通用爬蟲管理平臺Crawlab
2019-03-06
分散式爬蟲
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲
十分鐘搞懂分散式爬蟲
2019-08-11
分散式爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
分散式爬蟲有哪些使用代理IP的方法？
2021-09-11
分散式爬蟲
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
python分散式爬蟲如何設計架構？
2021-09-11
Python分散式爬蟲架構
Scrapy 對接 Docker
2018-04-18
Docker
scrapyd+gerapy的專案部署
2020-07-18
基於Scrapy分散式爬蟲的開發與設計
2018-04-27
分散式爬蟲
爬蟲專案部署
2018-04-03
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
【Python實戰】用Scrapyd把Scrapy爬蟲一步一步部署到騰訊雲上，有彩蛋
2019-03-04
Python爬蟲
打造高效的分散式爬蟲系統：利用Scrapy框架實現
2023-10-12
分散式爬蟲框架
大規模非同步新聞爬蟲的分散式實現
2019-06-10
非同步爬蟲分散式

分散式爬蟲的部署之Scrapyd對接Docker

一、準備工作

二、對接Docker

三、結語

相關文章