從0到1完成nutch分散式爬蟲專案實戰

假的魚發表於2019-01-08

原文網址 : https://blog.csdn.net/m0_37803704/article/details/86101728

分散式爬蟲

大資料5天實訓

命令提示符$表示普通使用者，#表示root使用者

搭建環境

選擇Install

選擇Next

選擇語言English（English），選擇Next

選擇鍵盤U.S.English，選擇Next

選擇Next

選擇Yes,discard any data

修改Hostname為hyxy1.1.cloud，選擇Next

選擇時區Asia/Shanghai，選擇Next

設定root密碼為hyxy123，選擇Next，會提示密碼過於簡單，這時選擇Use Anyway

選擇Next

選擇Write changes to disk

選擇Close，選擇右上角X，選擇正常關閉，選擇OK

在這裡向大家推薦一個學習資料分享群：894951460

選擇設定

左側選擇儲存，右側儲存樹內的控制器下滑鼠右鍵CentOS-6.5-x86_64-LiveDVD，選擇刪除碟片，選擇刪除，選擇OK，選擇啟動

配置centos

選擇Forward

Username改為hyxy，Full Name改為hyxy，Password改為hyxy123，Confirm Password改為hyxy123

選擇Forward

滑鼠右鍵桌面，選擇Open in Terminal，開啟終端，輸入命令

$ifconfig

檢視ip地址

網路環境及主機名設定

檢視win環境的IP，按住alt左邊一個鍵+r ，在跳出的框內出入cmd然後回車

回車後產生以下畫面

在黑白框內輸入ipconfig

找到一個本地連線或者無線網路連線，看IP地址是多少，上圖所示，我的是無線網路IP地址為192.168.1.242

所以我如果想讓VM下的linux上網必須修改linux的網路的eth0位該網段的IP(網段指的是IP前三個數字，如我的win環境是192.168.1.242，那麼我的網段是192.168.1。所以linux IP需要配置成192.168.1.x。並且GATEWAY改成192.168.1.1)。如下圖

輸入 vi /etc/sysconfig/network-scripts/ifcfg-eth0

配置完成後輸入：service network restart,完成網路重啟，如下圖為正確啟動網路。

如果有問題，修改方式如下：

1、檢視ls /etc/sysconfig/network-scripts/ 下除了ifcfg-lo和ifcfg-eth0是否還有其他ifcfg-開頭的檔案，有使用rm -rf +檔名刪除。

2、修改網路卡。

再次重啟網路，service network restart。直到全部OK為止。

測試能不能ping通網管就是在eth0裡配置的GATEWAY的地址。我的為192.168.1.1

此狀態為正常，如果ping不通，關閉win7或者win10的防火牆，並且關閉linux的防火牆，linux使用命令service iptables stop進行關閉。

再次ping閘道器 ping 192.168.1.1 如果還不通，修改以下位置

改成上圖的配置。並再次ping 192.168.1.1（注意該網管每個主機可能不同）直到ping通為止，此時再使用ping命令ping下baidu：命令如下：ping www.baidu.com.

注意不是每個主機在ping通閘道器的情況下就能平通外網，跟路由設定有關，如果遇到這種問題，只能換網路環境了。

1. 1. 配置ssh服務

切換root使用者輸入root密碼，啟動sshd服務

su root

service sshd start

設定sshd服務開機啟動

#chkconfig sshd on

導航到home目錄

建立資料夾nutchhadoop

進入根目錄：

cd /

建立目錄：

mkdir nutchHadoop

檢視是否建立成功

進入nutchhadoop資料夾內，建立資料夾jdk、ant、nutch、hadoop

一次性把四個目錄都建立出來

1. 1. 配置主機名

# hostname master

以上命令為臨時修改，永久修改需要修改配置檔案：

輸入命令 vi /etc/syscpnfig/network回車

可以看到HOSTNAME的選項，改成master（可以自己定義名字，但是必須保證臨時修改和永久修改的名字一致）

修改完成後退出輸入行模式:wq儲存退出。

如圖是linux的主機名

此時還未生效生效方式1.重啟。2.使用hostname master臨時生效，下次重啟的時候會自動檢查我們修改的配置檔案生效，此時輸入su root 可以看到修改後的效果

檢視hostname

#hostname

配置域名解析的對應方式，輸入如下命令：vi /etc/hosts,最後邊新增，主機的IP，和剛剛改好的主機名，兩者之間用tab分割，新增完成儲存退出。

1. 1. 關閉防火牆

切換到root使用者

#service iptables stop

#chkconfig iptables off

1. 安裝jdk

進入/tmp目錄下，解壓縮

cd /tmp

檢視是否有我們上傳的4個檔案

把壓縮包解壓到建立的對應的目錄下

tar -zxvf jdk-8u121-linux-x64.tar.gz -C /nutchhadoop/jdk/

執行結果如下

編輯~/.bash_profile檔案，配置環境變數

vi ~/.bash_profile

按i變為插入模式，輸入以下命令

Esc退出編輯模式，輸入:wq儲存退出

輸入

source ~/.bash_profile

如果變數配置出了問題先使用以下命令

如果輸入java -version後不是以上內容而是 java -version "1.7......."或者commond not found。說明環境變數有問題，可以使用：cd $JAVA_HOME檢查，如圖，表示目錄不對

重新修改~/.bash_profile的JAVA_HOME的目錄

Jdk配置成功

1. 安裝ant

進入到ant目錄下，解壓縮，檢視是否成功

cd /tmp/

tar zxvf apache-ant-1.9.7-bin.tar.gz -C /nutchhadoop/ant/

過程為：

編輯~/.bash_profile檔案，配置環境變數

vi ~/.bash_profile

按i變為插入模式，輸入以下命令

Esc退出編輯模式，輸入:wq儲存退出，

Ant配置成功

1. 安裝nutch
  1. 解壓縮

進入到nutch目錄下，解壓縮，檢視是否成功

cd /tmp/

tar zxvf apache-nutch-1.7-src.tar.gz -C /nutchhadoop/nutch/ 回車

執行結果

進入目錄

修改配置檔案nutch-site.xml

vi nutch-site.xml

新增

<name>http.agent.name</name>

<value>gupao spider</value>

</property>

儲存退出

編譯nutch

進入到

使用ant runtime進行編譯

此時進入ant編譯nutch的環節，會下載很多nutch的更新和下載一個runtime的目錄，其中runtime裡有很多的整合好的方法，我們使用的爬資料的方法就繼承在這個目錄內。次狀態時間要10-20分鐘，耐心等待，如果非常快速的完成，說明網路有問題，不能下載。仔細檢查網路。能否ping通baidu，使用ping www.baidu.com進行檢查

如圖：

為正在下載。可以看到下載的位元組，時間，成功等資訊

配置環境變數

編輯~/.bash_profile檔案，配置環境變數

vi ~/.bash_profile

按i變為插入模式，輸入以下命令

source ~/.bash_profile

1. 安裝hadoop

進入到hadoop目錄下，解壓縮，檢視是否成功

cd /tmp/

tar –zxvf hadoop-2.6.1.tar.gz -C /nutchhadoop/hadoop/

執行結果

1. 1. 設定環境變數

編輯~/.bash_profile檔案，配置環境變數

vi ~/.bash_profile

按i變為插入模式，輸入以下命令

Esc退出編輯模式，輸入:wq儲存退出

輸入

source ~/.bash_profile

輸入hadoop version

出現如下問題：

修改方式如下：

修改上圖中的兩個.sh結尾的檔案。（hadoop-env.sh和yarn-env.sh）

vi hadoop-env.sh

在這裡向大家推薦一個學習資料分享群：894951460

找到紅框內容游標移動到該行，修改為對應的~/.bash_profile的java_home對應內容

修改完後儲存退出，下圖所示

修改yarn-env.sh

找到如下位置

在該行下新加一行

儲存退出：

1. 1. 修改配置檔案

進入hadoop-2.6.1資料夾內

1. 1. 1. 修改core-site.xml檔案

cd /nutchhadoop/hadoop/hadoop-2.6.1

vim etc/hadoop/core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

</configuration>

儲存退出（注意<value>hdfs://master:9000</value>的master是你自己設定的主機名，也就是上邊設定hostname）

1. 1. 1. 修改hdfs-site.xml檔案

cd /nutchhadoop/hadoop/hadoop-2.6.1

$vim etc/hadoop/hdfs-site.xml

<name>dfs.replication</name>

</property>

</configuration>

儲存退出

1. 1. 1. 修改mapred-site.xml檔案

複製

cd /nutchhadoop/hadoop/hadoop-2.6.1/etc/hadoop/

cp mapred-site.xml.template mapred-site.xml

編輯mapred-site.xml

vi mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

儲存退出

1. 1. 1. 修改yarn-site.xml檔案

cd /nutchhadoop/hadoop/hadoop-2.6.1/etc/hadoop/

vi yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

1. 1. 設定ssh信任

使用命令：cd ~

[root@mast1 ~]$ ssh-keygen -t rsa

直接4部回車

配置祕鑰完成後，把公鑰傳送到所有的對方主機。

[root@mast1 ~]$ ssh-copy-id -i /root/.ssh/id_rsa.pub master

以上的master同樣是自己設定的linux的主機名，就是hostname設定那一步

關閉當前終端，驗證ssh信任是否通過

1. 1. 啟動hdfs、yarn

hdfs namenode -format

注意，叢集只有第一次啟動的時候使用這個命令，下次啟動一定不要再次使用，否則會出現很對問題，以你們現在的水平找不到解決方法

啟動hdfs

start-dfs.sh

啟動yarn

start-yarn.sh

輸入jps命令檢視是否啟動成功

jps

進入nutch目錄下

cd / nutchhadoop/nutch/

建立urls.txt，新增網址，儲存退出

vi urls.txt

http://nutch.apache.org/

儲存退出

在hdfs上建立目錄

hadoop fs -mkdir /nutch

將urls.txt提交到hdfs中

hadoop fs -put urls.txt /nutch

檢視是否提交成功

hadoop fs -cat /nutch/urls.txt

抓取資料
1. 執行抓取

進入到/nutchhadoop/nutch/apache-nutch-1.7目錄

cd /nutchhadoop/nutch/apache-nutch-1.7

執行抓取

hadoop jar ./runtime/deploy/apache-nutch-1.7.job org.apache.nutch.crawl.Crawl /nutch/ -dir TestCrawl -depth 1 -topN 1

瀏覽器中輸入http://192.168.1.156:8088

檢視mapreduce任務執行

執行最後顯示如下資訊表示成功

17/04/05 11:35:32 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032

17/04/05 11:35:32 INFO crawl.LinkDb: LinkDb: finished at 2017-04-05 11:35:32, elapsed: 00:01:37

17/04/05 11:35:32 INFO crawl.Crawl: crawl finished: TestCrawl

在hdfs中檢視抓取結果

hadoop fs -ls /user/hyxy/TestCrawl

1. 生成txt檔案

執行

cd /nutchhadoop/nutch/apache-nutch-1.7

./runtime/deploy/bin/nutch readseg -dump /user/root/TestCrawl/segments/20190108161042 /nutch/crawl_dump_text -nofetch -nogenerate -nocontent -noparse -noparsedata

如果此步驟產生錯誤表示nutch需要配置java_home，配置如下

vi runtime/deploy/bin/nutch

移動如下位置：

新增如下內容：

儲存退出後再次編譯./runtime/deploy/bin/nutch readseg -dump /user/root/TestCrawl/segments/20170413001028/ /nutch/crawl_dump_text -nofetch -nogenerate -nocontent -noparse -noparsedata

檢視執行結果

hadoop fs -ls /nutch

檢視資料內容

hadoop fs -cat /nutch/crawl_dump_text/dump

如何學習大資料？學習沒有資料？

想學習大資料開發技術，Hadoop，spark，雲端計算，資料分析等技術，在這裡向大家推薦一個學習資料分享群：894951460，裡面有大牛已經整理好的相關學習資料，希望對你們有所幫助。

node專案從0到1實戰
2022-02-15
Python爬蟲開發與專案實戰--分散式程式
2018-07-31
Python爬蟲分散式
從0到1：React專案中的Webpack配置實戰
2024-08-25
ReactWeb
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲
Python爬蟲開發與專案實戰（1）
2020-10-18
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
Vue3 全家桶，從 0 到 1 實戰專案，新手有福了
2021-12-23
Vue
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
從0到1實現專案Docker編排部署
2024-10-22
Docker
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
python專案開發例項-Python專案案例開發從入門到實戰——爬蟲、遊戲
2020-10-28
Python爬蟲遊戲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
大資料爬蟲專案實戰教程
2018-11-14
大資料爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
分散式爬蟲
2019-03-05
分散式爬蟲
手把手教你實現Scrapy-Redis分散式爬蟲：從配置到最終執行的實戰指南
2024-08-12
Redis分散式爬蟲
Go語言專案實戰：併發爬蟲
2018-11-16
Go爬蟲
Python爬蟲開發與專案實戰pdf
2020-01-11
Python爬蟲
Python爬蟲開發與專案實戰（2）
2020-10-21
Python爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java
分散式爬蟲原理
2019-02-16
分散式爬蟲
Vue+Express全棧開發專案實戰技能：‌從0到1打造完整電商專案
2024-09-03
VueExpress全棧
從0到1完成一個Babel外掛
2019-04-23
Babel
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
神器！五分鐘完成大型爬蟲專案！
2021-09-15
爬蟲
《從0到1搭建一個IM專案》專案初始化
2022-12-28
Datawhale-爬蟲-Task7(實戰大專案)
2019-03-07
爬蟲
Python爬蟲入門學習實戰專案（一）
2020-02-18
Python爬蟲

從0到1完成nutch分散式爬蟲專案實戰

大資料5天實訓

相關文章