爬蟲管理平臺以及wordpress本地搭建
學習目標:
- 各爬蟲管理平臺瞭解
- scrapydweb
- gerapy
- crawlab
- 各爬蟲管理平臺的本地搭建
- Windows下的wordpress搭建
爬蟲管理平臺瞭解:
-
scrapydweb:
用於Scrapyd實施管理的web應用程式,支援Scrapy日誌分析和視覺化 github地址:https://github.com/my8100/scrapydweb.git
-
gerapy:
基於Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django和Vue.js的分散式爬蟲管理框架 相關的配置在我之前部落格地址:https://www.cnblogs.com/xbhog/p/13336651.html 該專案github地址:https://github.com/Gerapy/Gerapy.git
-
crawlab:
基於Golang的分散式爬蟲管理平臺,支援多種程式語言以及多種爬蟲框架. 文件地址:https://docs.crawlab.cn/zh/ GitHub地址:https://github.com/crawlab-team/crawlab.git
注意:前兩個框架的搭建基於Scrapyd,如果不知道怎麼配置可以看我之前寫的部落格:https://www.cnblogs.com/xbhog/p/13336651.html
爬蟲管理平臺的本地搭建:
-
scrapydweb搭建:
-
安裝:pip install scrapydweb -i https://pypi.doubanio.com/simple
-
先開啟scrapyd(命令列輸入)
-
再輸入scrapydweb
-
介面效果:
-
部署安裝網上教程很多,不多贅述
-
-
gerapy
- 相關的配置在我之前部落格地址:https://www.cnblogs.com/xbhog/p/13336651.html
-
crawlab:(配置安裝官方給的很詳細,這裡簡單說下)
-
首先把程式碼從遠端倉庫clone下來:git clone 地址/複製地址到pycharm中
-
#官方推薦幾種安裝方式: Docker(入門簡單,推薦) Kubernetes(多機器部署,推薦) 直接部署(理解原理) 開發模式(開發除錯) 多節點部署 #個人選擇docker,該專案配置環境過多,怕給本地造成衝突
-
docker的安裝:
-
安裝環境:本地虛擬化以及hyper-V需要開啟,如圖所示
-
預設安裝即可
-
相關詳細連結(菜鳥教程:https://www.runoob.com/docker/windows-docker-install.html)
-
安裝docker-compose包:pip install docker-compose
-
在根目錄下測試:
docker-compose ps 正常為空 Name Command State Ports ------------------------------ --------------------------------
-
安裝並啟動:docker-compose up -d
-
Windows下的wordpress搭建:
環境準備:
- wampserver軟體
- wordpress原始碼
- 百度網盤地址:連結:https://pan.baidu.com/s/1mAFu8XrNSfpyL_VgSvb8VA 提取碼:1234
搭建步驟:
-
開啟wampserver.exe,預設安裝(注意在安裝路徑的時候不能有中文資料夾)
-
最後會有四個彈窗:
-
是否更改瀏覽器,該軟體預設瀏覽器是explorer,我們點選是,選擇谷歌瀏覽器;
-
選擇nodpad++,選擇否。
-
-
安裝完成後,點選桌面圖示執行,程式顏色表示狀態
- 紅色:配置沒啟動
- 橙色:配置啟動一部分
- 綠色:配置完全啟動
-
綠色後,單機程式圖示,點選localhost進入網頁
-
將預先準備的wordpress安裝包放到wampserver/www資料夾下
-
進入網頁地址輸入:localhost/wordpress
點選開始進入配置頁面:
-
上面配置先放置,我們先進行資料庫設定
輸入使用者名稱root,密碼空,點選執行。
-
進入賬戶下的root,修改許可權,修改密碼
-
我們需要對應之前的資料庫名稱(wordpress),所以新建資料庫
-
設定成功後返回之前的資料庫登入頁面,填寫相關資訊:
-
提交進入登陸介面配置:
-
填寫完成進入登陸介面
-
登陸:前後臺介面