2018.2最新-搜尋引擎搭建-scrapyd部署我們的爬蟲專案
下載程式碼
git clone -b ArticleSpider-elasticsearch https://github.com/mtianyan/Art icleSpider.git
這裡我下載到了desktop目錄。
介紹
- scrapyd是一個service用來執行我們的spider例項
- 通過http json 控制spider
安裝
安裝到虛擬環境之下:
我們之前執行爬蟲的虛擬環境
workon articlespider3
scrapyd
這時訪問瀏覽器的6800埠沒有錯誤。
看到我現在的目錄在桌面
scrapyd是一個伺服器。
我們部署需要兩個東西,一個是scrapyd 一個是scrapy client
client打包傳送到server
對應的虛擬環境要能好好執行。scrapyd部署到伺服器。
模擬客戶端
開啟一個新視窗
不用進入我們原先的虛擬環境。
pip install scrapyd-client
安裝完成後cd到我們的專案目錄。
前往配置我們的scrapy.cfg
名稱需要自己記住。如我的mtianyan
找到自己當前視窗對應系統環境的scrapyd-deploy檔案
可以直接scrapyd-deploy命令,但是這個是提供給unix使用者的。
windows使用者專屬
在當前目錄建立檔案scrapyd-deploy.bat
@echo off
"D:softEnvDownAnaconda2envspy3python.exe" "D:softEnvDownAnaconda2envspy3Scriptsscrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
首先找到虛擬環境下的python.exe路徑
找到scrapyd-deploy路徑。
可以看到此時scrapyd-deploy可用
-l 檢視已經啟動的scrapyd服務。
視窗一也就是原來執行我們專案虛擬環境的那個。
cd進專案目錄
scrapy list
確保可以檢視到我們的spider專案。
開始部署
-p 要和配置檔案中保持一致
scrapyd-deploy mtianyan -p ArticleSpider
這是因為我們剛才想檢查scrapy list把服務關了
開啟服務後重新執行
打包上傳成功。
前往驗證專案上傳完成
可以看到我執行scrapyd的目錄中已經有eggs 和 dbs
eggs中又有我們的scrapy專案
開始執行我們的scrapy專案
curl http://localhost:6800/daemonstatus.json
檢視當前執行狀態
curl http://localhost:6800/schedule.json -d project=ArticleSpider -d spider=jobbole
可以看到執行成功。
本地執行可以打包報錯_job(我github程式碼已經解決了這個錯誤)
jobbole.py中
def __init__(self, **kwargs):
新增引數 **kwargs
上傳了錯誤的專案如何刪除
curl http://localhost:6800/delproject.json -d project=ArticleSpider
瀏覽器中finish欄位為空表示無異常
log 就是除錯時的log
取消spider任務
curl http://localhost:6800/cancel.json -d project=ArticleSpider -d job=2a9b218a13e011e888cb28d2449bc99e
jobid就是剛才啟動時返回的那個。
可以看到已經停止finish了。
看到有幾個project,spider
curl http://localhost:6800/listprojects.json
檢視有幾個spider
curl http://localhost:6800/listspiders.json?project=ArticleSpider
job是另一個概念,檢視jobs
一個爬蟲執行多次是多個job
curl http://localhost:6800/listjobs.json?project=ArticleSpider | python -m json.tool
相關文章
- scrapyd 部署爬蟲專案爬蟲
- Scrapy分散式爬蟲打造搜尋引擎-(八)elasticsearch結合django搭建搜尋引擎分散式爬蟲ElasticsearchDjango
- 分散式爬蟲的部署之Scrapyd批量部署分散式爬蟲
- 分散式爬蟲的部署之Scrapyd分散式部署分散式爬蟲
- Python在Windows系統下基於Scrapyd部署爬蟲專案(本地部署)PythonWindows爬蟲
- CDN源站遮蔽搜尋引擎爬蟲爬蟲
- 搜尋引擎爬蟲蜘蛛的User-Agent收集爬蟲
- 爬蟲專案部署爬蟲
- 分散式爬蟲的部署之Scrapyd對接Docker分散式爬蟲Docker
- Tomcat和搜尋引擎網路爬蟲的攻防Tomcat爬蟲
- laravel 簡單限制搜尋引擎爬蟲頻率Laravel爬蟲
- scrapyd+gerapy的專案部署
- 如何使用robots禁止各大搜尋引擎爬蟲爬取網站爬蟲網站
- gerapy框架爬蟲專案部署框架爬蟲
- Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為Web網站爬蟲
- Nutch:從搜尋引擎到網路爬蟲---分享公開課爬蟲
- Java爬蟲專案環境搭建Java爬蟲
- solr 7.0 搭建 maven 整合,基於tomcat 搜尋引擎 部署SolrMavenTomcat
- scrapy入門教程()部署爬蟲專案爬蟲
- 搜狗搜尋微信Python爬蟲案例Python爬蟲
- 搜尋引擎-03-搜尋引擎原理
- 三步搭建自己的Google搜尋引擎Go
- 爬蟲專案爬蟲
- 揭秘淘寶搜尋API:打造你的專屬購物搜尋引擎!API
- Python爬蟲系列(六):搜尋文件樹Python爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 最新Python爬蟲專案班(七月線上)Python爬蟲
- 天天聊爬蟲,今天我們來聊聊反爬爬蟲
- 海量資料搜尋---搜尋引擎
- 爬蟲小專案爬蟲
- 建立爬蟲專案爬蟲
- 我們不要框計算 我們要更好的搜尋體驗薦
- 用elasticsearch和nuxtjs搭建bt搜尋引擎ElasticsearchUXJS
- Python爬蟲 搜尋並下載圖片Python爬蟲
- Python 實戰:用 Scrapyd 打造爬蟲控制檯Python爬蟲
- 爬蟲的例項專案爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲