分散式爬蟲的部署之Scrapyd批量部署

崔慶才丨靜覓發表於2018-06-04

原文網址 : https://juejin.im/post/5b14d2b0f265da6e326c49da

我們在上一節實現了Scrapyd和Docker的對接，這樣每臺主機就不用再安裝Python環境和安裝Scrapyd了，直接執行一句Docker命令執行Scrapyd服務即可。但是這種做法有個前提，那就是每臺主機都安裝Docker，然後再去執行Scrapyd服務。如果我們需要部署10臺主機的話，工作量確實不小。

一種方案是，一臺主機已經安裝好各種開發環境，我們取到它的映象，然後用映象來批量複製多臺主機，批量部署就可以輕鬆實現了。

另一種方案是，我們在新建主機的時候直接指定一個執行指令碼，指令碼里寫好配置各種環境的命令，指定其在新建主機的時候自動執行，那麼主機建立之後所有的環境就按照自定義的命令配置好了，這樣也可以很方便地實現批量部署。

目前很多服務商都提供雲主機服務，如阿里雲、騰訊雲、Azure、Amazon等，不同的服務商提供了不同的批量部署雲主機的方式。例如，騰訊雲提供了建立自定義映象的服務，在新建主機的時候使用自定義映象建立新的主機即可，這樣就可以批量生成多個相同的環境。Azure提供了模板部署的服務，我們可以在模板中指定新建主機時執行的配置環境的命令，這樣在主機建立之後環境就配置完成了。

本節我們就來看看這兩種批量部署的方式，來實現Docker和Scrapyd服務的批量部署。

一、映象部署

以騰訊云為例進行說明。首先需要有一臺已經安裝好環境的雲主機，Docker和Scrapyd映象均已經正確安裝，Scrapyd映象啟動加到開機啟動指令碼中，可以在開機時自動啟動。

進入騰訊雲後臺，點選更多選項製作映象，如下圖所示。

輸入映象的一些配置資訊，如下圖所示。

確認製作映象，稍等片刻即可製作成功。

接下來，建立新的主機，在新建主機時選擇已經制作好的映象即可，如下圖所示。

後續配置過程按照提示進行即可。

配置完成之後登入新到雲主機，即可看到當前主機Docker和Scrapyd映象都已經安裝好，Scrapyd服務已經正常執行。

我們就通過自定義映象的方式實現了相同環境的雲主機的批量部署。

二、模板部署

Azure的雲主機在部署時都會使用一個部署模板，這個模板實際上是一個JSON檔案，裡面包含了很多部署時的配置選項，如主機名稱、使用者名稱、密碼、主機型號等。在模板中我們可以指定新建完雲主機之後執行的命令列指令碼，如安裝Docker、執行映象等。等部署工作全部完成之後，新建立的雲主機就已經完成環境配置，同時執行相關服務。

這裡提供一個部署Linux主機時自動安裝Docker和執行Scrapyd映象的模板，模板內容太多，原始檔可以檢視：https://github.com/Python3WebSpider/ScrapydDeploy/blob/master/azuredeploy.json。模板中Microsoft.Compute/virtualMachines/extensions部分有一個commandToExecute欄位，它可以指定建立主機後自動執行的命令。這裡的命令完成的是安裝Docker並執行Scrapyd映象服務的過程。

首先安裝一個Azure元件，安裝過程可以參考：https://docs.azure.cn/zh-cn/xplat-cli-install。之後就可以使用azure命令列進行部署。

登入Azure，這裡登入的是中國區，命令如下：

azure login -e AzureChinaCloud複製程式碼

如果沒有資源組的話，需要新建一個資源組，命令如下：

azure group create myResourceGroup chinanorth複製程式碼

其中，myResourceGroup是資源組的名稱，可以自行定義。

使用該模板進行部署，命令如下：

azure group deployment create --template-file azuredeploy.json myResourceGroup myDeploymentName複製程式碼

其中，myResourceGroup是資源組的名稱，myDeploymentName是部署任務的名稱。

例如，部署一臺Linux主機的過程如下：

azure group deployment create --template-file azuredeploy.json MyResourceGroup SingleVMDeploy
info:    Executing command group deployment create
info:    Supply values for the following parameters
adminUsername:  datacrawl
adminPassword:  DataCrawl123
vmSize:  Standard_D2_v2
vmName:  datacrawl-vm
dnsLabelPrefix:  datacrawlvm
storageAccountName:  datacrawlstorage複製程式碼

執行命令後會提示輸入各個配置引數，如主機使用者名稱、密碼等。之後等待整個部署工作完成即可，命令列會自動退出。然後，我們登入雲主機即可檢視到Docker已經成功安裝並且Scrapyd服務正常執行。

三、結語

以上內容便是批量部署的兩種方法。在大規模分散式爬蟲架構中，如果需要批量部署多個爬蟲環境，使用如上方法可以快速批量完成環境的搭建工作，而不用再去逐個主機配置環境。

到此為止，我們解決了批量部署的問題，建立主機完畢之後即可直接使用Scrapyd服務。

本資源首發於崔慶才的個人部落格靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

分散式爬蟲的部署之Scrapyd分散式部署
2018-05-30
分散式爬蟲
分散式爬蟲的部署之Scrapyd對接Docker
2018-06-04
分散式爬蟲Docker
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
分散式爬蟲的部署之Gerapy分散式管理
2018-06-06
分散式爬蟲
Python在Windows系統下基於Scrapyd部署爬蟲專案(本地部署)
2018-03-22
PythonWindows爬蟲
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
如何簡單高效地部署和監控分散式爬蟲專案
2019-03-02
分散式爬蟲
爬蟲專案部署
2018-04-03
爬蟲
分散式爬蟲
2019-03-05
分散式爬蟲
scrapyd+gerapy的專案部署
2020-07-18
MinIO 的分散式部署
2020-04-30
分散式
分散式爬蟲原理
2019-02-16
分散式爬蟲
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
【Python實戰】用Scrapyd把Scrapy爬蟲一步一步部署到騰訊雲上，有彩蛋
2019-03-04
Python爬蟲
Python 實戰:用 Scrapyd 打造爬蟲控制檯
2018-10-30
Python爬蟲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
Ceph分散式叢集部署
2020-12-19
分散式
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
分散式Jmeter壓測機的部署
2021-06-10
分散式JMeter
Java爬蟲快速開發工具uncs的部署攻略
2019-05-30
Java爬蟲
短影片直播系統為什麼需要分散式部署，淺談分散式部署
2020-08-06
分散式
分散式協調服務之Zookeeper叢集部署
2020-10-19
分散式
分散式訊息系統之Kafka叢集部署
2020-10-21
分散式Kafka
分散式檔案系統之FastDFS安裝部署
2020-09-19
分散式AST
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
爬蟲日誌監控 -- Elastc Stack（ELK）部署
2020-09-26
爬蟲AST
【爬蟲】將 Scrapy 部署到 k8s
2022-01-12
爬蟲K8S
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
02 . 分散式儲存之FastDFS 高可用叢集部署
2020-07-03
分散式AST
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
分散式通用爬蟲管理平臺Crawlab
2019-03-06
分散式爬蟲

分散式爬蟲的部署之Scrapyd批量部署

一、映象部署

二、模板部署

三、結語

相關文章