大快搜尋的大資料一體化開發框架下的大資料爬蟲安裝教程
線上爬蟲是大快大資料一體化開發框架的重要組成部分,本篇重點分享線上爬蟲的安裝。
爬蟲安裝前準備工作:大快大資料平臺安裝完成、 zookeeper 、 redis 、 elasticsearch 、 mysql 等元件安裝啟動成功。
1 、修改爬蟲安裝配置檔案 ( 最好線上下修改好後再上傳平臺 )
2 、修改 crawler\dkcrw \jdbc.properties 配置檔案 ( 只修改圖片裡的內容其他內容預設即可 )
Hbase.zookeeper.quorum 所填地址應在 DKM 監控平臺檢視:
Redis 相關配置看如下介面:
3 、把已修改的 crawler\dkcrw \ 下的 jdbc.properties 配置檔案替換到 \crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes 下 ( 這下面有一個沒有改好的直接替換 )
修改好後把修改好的爬蟲檔案打壓成壓縮檔案
4 、上傳平臺主節點並解壓 ( 這裡就不介紹怎麼上傳了的了 , 本次例子是上傳到 root 目錄下 , 安裝包上傳到任何目錄下都可以推選 root 目錄 )
u nzip 解壓命令 , 解壓唱功後會多了一個 cuawler 的資料夾
使用 cd crawler 命令進入 crawler 資料夾下
使用 mysql -uroot -p123456 < numysql.sql 命令新增 numysql.sql 資料庫
5 、分發爬蟲檔案
每個節點都需要有 dkcrw 檔案 , dkcrw-tomcat-7.0.56 檔案只能放在一個節點上 , 不能放在主節點上 ( 推選放在從節點 )
命令 :
scp -r { 要分發的檔名可填寫多個 , 如果不在要分發檔案的目錄下請新增路徑 } { 分發到的伺服器 ip 或名稱 : 分發到的路徑 }
例如 :
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/
6 、在分發了 dkcrw-tomcat-7.0.56 檔案的節點上給檔案新增許可權
命令 :
c hmod -R 755 { 需要給許可權的檔案等 }
例如 :
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56 /
7 、啟動爬蟲介面
命令 :
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh
啟動介面之後再瀏覽器中輸入啟動介面節點的 IP, 來開啟爬蟲介面看是否啟動成功 ( 賬號密碼是預設的 )
8 、啟動每個節點的 dkcrw.jar
命令 :
主節點執行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &
從節點執行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &
注意:可以先使用前臺啟動爬蟲,確定爬蟲沒錯誤。
前臺啟動命令 java -jar dkcrw.jar master/slave
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2212742/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料爬蟲專案實戰教程大資料爬蟲
- 大快搜尋大資料基礎管理平臺功能深度解析大資料
- 大資料基礎-kakfa的安裝教程大資料
- elasticsearch支援大table格式資料的搜尋Elasticsearch
- 大快搜尋企業大資料管理平臺DKM功能解析大資料
- 爬蟲在大資料時代的應用爬蟲大資料
- 大快搜尋城市運河大資料政務管理平臺案例解讀大資料
- 用Python實現一個大資料搜尋引擎Python大資料
- 大快搜尋獲評“2018中國大資料基礎軟體領域領軍企業”大資料
- python爬蟲利用代理IP分析大資料Python爬蟲大資料
- 大資料教程分享實用的大資料之陣列大資料陣列
- 學習大資料必須瞭解的大資料開發課程大綱大資料
- 什麼是大資料?大資料開發是做什麼的?大資料
- Python爬蟲框架:scrapy爬取高考派大學資料Python爬蟲框架
- 大資料究竟有多“大”?谷歌搜尋的規模為 62 PB,排名倒數第一大資料谷歌
- 大資料HBase在阿里搜尋中的應用實踐大資料阿里
- CDH安裝大資料叢集大資料
- 玩轉大資料系列之四:搜尋服務大資料
- 百度地攤經濟搜尋大資料大資料
- 上帝視角一覽大資料開發體系大資料
- 【大資料】科普一下大資料的那些事兒大資料
- 微軟陸奇:大資料技術的誕生源於搜尋微軟大資料
- IPIDEA大盤點,藉助網路爬蟲抓取資料的作用?Idea爬蟲
- 大資料軟體工具租賃 BI大資料分析平臺定製開發大資料
- 什麼叫大資料 大資料的概念大資料
- 大資料教程之大資料的影響二大資料
- 大資料前景如何?大資料開發工程師是什麼?大資料工程師
- 大資料測試之揭秘大資料的背景與發展大資料
- 大資料前景:大資料未來的7個發展方向大資料
- 大資料教程系列之大資料概念大資料
- 大資料尋求幫助!大資料
- 大資料爬坑收錄大資料
- 大資料怎麼學?對大資料開發領域及崗位的詳細解讀,完整理解大資料開發領域技術體系大資料
- 大資料開發筆記大資料筆記
- IPIDEA助力Python爬蟲精準分析市場大資料IdeaPython爬蟲大資料
- 【Hadoop】大資料安裝部署之虛擬機器的安裝Hadoop大資料虛擬機
- 大資料開發常見的9種資料分析手段大資料
- 大快DKH大資料基礎資料平臺的監控引數說明大資料