大快搜尋的大資料一體化開發框架下的大資料爬蟲安裝教程

adnb34g發表於2018-08-24

線上爬蟲是大快大資料一體化開發框架的重要組成部分,本篇重點分享線上爬蟲的安裝。

爬蟲安裝前準備工作:大快大資料平臺安裝完成、 zookeeper redis elasticsearch mysql 等元件安裝啟動成功。

1 、修改爬蟲安裝配置檔案 ( 最好線上下修改好後再上傳平臺 )

 

 

2 、修改 crawler\dkcrw \jdbc.properties 配置檔案 ( 只修改圖片裡的內容其他內容預設即可 )

 

Hbase.zookeeper.quorum 所填地址應在 DKM 監控平臺檢視:

 

Redis 相關配置看如下介面:

 

3 、把已修改的 crawler\dkcrw \ 下的 jdbc.properties 配置檔案替換到 \crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes ( 這下面有一個沒有改好的直接替換 )

 

修改好後把修改好的爬蟲檔案打壓成壓縮檔案

4 、上傳平臺主節點並解壓 ( 這裡就不介紹怎麼上傳了的了 , 本次例子是上傳到 root 目錄下 , 安裝包上傳到任何目錄下都可以推選 root 目錄 )

 

 

u nzip 解壓命令 , 解壓唱功後會多了一個   cuawler   的資料夾

 

使用 cd  crawler   命令進入   crawler   資料夾下

 

使用 mysql -uroot -p123456 < numysql.sql   命令新增 numysql.sql 資料庫

 

5 、分發爬蟲檔案

 

每個節點都需要有 dkcrw 檔案 ,  dkcrw-tomcat-7.0.56 檔案只能放在一個節點上 , 不能放在主節點上 ( 推選放在從節點 )

命令 :

scp -r  { 要分發的檔名可填寫多個 , 如果不在要分發檔案的目錄下請新增路徑 }  { 分發到的伺服器 ip 或名稱 : 分發到的路徑 }

例如 :

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

 

6 、在分發了 dkcrw-tomcat-7.0.56 檔案的節點上給檔案新增許可權

命令 :

c hmod -R 755 { 需要給許可權的檔案等 }

例如 :

cd /opt/dkh

chmod -R 755 dkcrw   dkcrw-tomcat-7.0.56 /

 

7 、啟動爬蟲介面

命令 :

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

 

啟動介面之後再瀏覽器中輸入啟動介面節點的 IP, 來開啟爬蟲介面看是否啟動成功 ( 賬號密碼是預設的 )

 

 

8 、啟動每個節點的 dkcrw.jar

命令 :

主節點執行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

 

從節點執行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

 

注意:可以先使用前臺啟動爬蟲,確定爬蟲沒錯誤。

前臺啟動命令 java -jar dkcrw.jar master/slave


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2212742/,如需轉載,請註明出處,否則將追究法律責任。

相關文章