大快搜尋的大資料一體化開發框架下的大資料爬蟲安裝教程
線上爬蟲是大快大資料一體化開發框架的重要組成部分,本篇重點分享線上爬蟲的安裝。
爬蟲安裝前準備工作:大快大資料平臺安裝完成、 zookeeper 、 redis 、 elasticsearch 、 mysql 等元件安裝啟動成功。
1 、修改爬蟲安裝配置檔案 ( 最好線上下修改好後再上傳平臺 )
2 、修改 crawler\dkcrw \jdbc.properties 配置檔案 ( 只修改圖片裡的內容其他內容預設即可 )
Hbase.zookeeper.quorum 所填地址應在 DKM 監控平臺檢視:
Redis 相關配置看如下介面:
3 、把已修改的 crawler\dkcrw \ 下的 jdbc.properties 配置檔案替換到 \crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes 下 ( 這下面有一個沒有改好的直接替換 )
修改好後把修改好的爬蟲檔案打壓成壓縮檔案
4 、上傳平臺主節點並解壓 ( 這裡就不介紹怎麼上傳了的了 , 本次例子是上傳到 root 目錄下 , 安裝包上傳到任何目錄下都可以推選 root 目錄 )
u nzip 解壓命令 , 解壓唱功後會多了一個 cuawler 的資料夾
使用 cd crawler 命令進入 crawler 資料夾下
使用 mysql -uroot -p123456 < numysql.sql 命令新增 numysql.sql 資料庫
5 、分發爬蟲檔案
每個節點都需要有 dkcrw 檔案 , dkcrw-tomcat-7.0.56 檔案只能放在一個節點上 , 不能放在主節點上 ( 推選放在從節點 )
命令 :
scp -r { 要分發的檔名可填寫多個 , 如果不在要分發檔案的目錄下請新增路徑 } { 分發到的伺服器 ip 或名稱 : 分發到的路徑 }
例如 :
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/
6 、在分發了 dkcrw-tomcat-7.0.56 檔案的節點上給檔案新增許可權
命令 :
c hmod -R 755 { 需要給許可權的檔案等 }
例如 :
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56 /
7 、啟動爬蟲介面
命令 :
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh
啟動介面之後再瀏覽器中輸入啟動介面節點的 IP, 來開啟爬蟲介面看是否啟動成功 ( 賬號密碼是預設的 )
8 、啟動每個節點的 dkcrw.jar
命令 :
主節點執行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &
從節點執行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &
注意:可以先使用前臺啟動爬蟲,確定爬蟲沒錯誤。
前臺啟動命令 java -jar dkcrw.jar master/slave
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2212742/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料爬蟲專案實戰教程大資料爬蟲
- 大快搜尋大資料基礎管理平臺功能深度解析大資料
- 大資料基礎-kakfa的安裝教程大資料
- 大快搜尋企業大資料管理平臺DKM功能解析大資料
- elasticsearch支援大table格式資料的搜尋Elasticsearch
- 爬蟲在大資料時代的應用爬蟲大資料
- 快資料:大資料發展的下一個起點大資料
- 大快搜尋城市運河大資料政務管理平臺案例解讀大資料
- 大資料,大資料,大資料大資料
- 用Python實現一個大資料搜尋引擎Python大資料
- 用 Python 實現一個大資料搜尋引擎Python大資料
- 大資料教程分享實用的大資料之陣列大資料陣列
- 學習大資料必須瞭解的大資料開發課程大綱大資料
- Facebook圖譜搜尋爭議 大資料存碎片化缺陷大資料
- 什麼是大資料?大資料開發是做什麼的?大資料
- python爬蟲利用代理IP分析大資料Python爬蟲大資料
- 尋路大資料:海量資料與大規模分析大資料
- 大資料究竟有多“大”?谷歌搜尋的規模為 62 PB,排名倒數第一大資料谷歌
- 大資料HBase在阿里搜尋中的應用實踐大資料阿里
- 微軟陸奇:大資料技術的誕生源於搜尋微軟大資料
- 上帝視角一覽大資料開發體系大資料
- 百度地攤經濟搜尋大資料大資料
- 玩轉大資料系列之四:搜尋服務大資料
- ElasticSearch大資料分散式彈性搜尋引擎使用Elasticsearch大資料分散式
- CDH安裝大資料叢集大資料
- 前端資料視覺化庫大搜羅前端視覺化
- 大資料搜尋選開源還是商業軟體?ElasticSearch 對比 Splunk大資料Elasticsearch
- 【大資料】科普一下大資料的那些事兒大資料
- 大資料發展步入快車道 不懂大資料將被市場淘汰大資料
- 大資料軟體工具租賃 BI大資料分析平臺定製開發大資料
- 一個月入門Python爬蟲,輕鬆爬取大規模資料Python爬蟲
- 大資料開發筆記大資料筆記
- 什麼叫大資料 大資料的概念大資料
- 大資料測試之揭秘大資料的背景與發展大資料
- 大資料前景:大資料未來的7個發展方向大資料
- 大資料的前世今生-大資料特徵與發展歷程大資料特徵
- 大資料的開放式創新:如何才能實現大資料的深發展?大資料
- 大資料爬坑收錄大資料