hadoop學習筆記：執行wordcount對檔案字串進行統計案例

朱季謙發表於2021-10-20

原文網址 : https://www.cnblogs.com/zhujiqian/p/15428444.html

文/朱季謙

我最近使用四臺Centos虛擬機器搭建了一套分散式hadoop環境，簡單模擬了線上上的hadoop真實分散式叢集，主要用於業餘學習大資料相關體系。

其中，一臺伺服器作為NameNode，一臺作為Secondary NameNode，剩下兩臺當做DataNodes節點伺服器，類似下面這樣一個架構——

	NameNode	Secondary NameNode	DataNodes
master1(192.168.200.111)	√
master2(192.168.200.112)		√
slave1(192.168.200.117)			√
slave2(192.168.200.115)			√

接下來,就是開始通過hadoop自帶的wordcount來統計一下檔案當中的字元數量。

啟動hadoop叢集后，在叢集可用情況下，按照以下步驟：
一、進入到hadoop安裝目錄，建立一個測試檔案example.txt

我的安裝目錄是：/opt/hadoop/app/hadoop/hadoop-2.7.5

[root@192 hadoop-2.7.5]# pwd
/opt/hadoop/app/hadoop/hadoop-2.7.5

新建一個example.txt，並隨機寫入一些字元：

aaa
bbb
cccc
dedef
dedf
dedf
ytrytrgtrcdscdscdsc
dedaxa
cdsvfbgf
uyiuyi
ss
xaxaxaxa

接著，在hdfs檔案系統上新建一個input資料夾，用來存放example.txt檔案——

[root@192 hadoop-2.7.5]# hdfs dfs -mkdir /input

然後，將example.txt複製到hdfs系統上的input目錄下——

[root@192 hadoop-2.7.5]# hdfs dfs -put example.txt /input

檢查一下，可以看到，example.txt檔案已經在input目錄底下了——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /input
Found 1 items
-rw-r--r--   3 root supergroup         84 2021-10-20 12:43 /input/example.txt

這些準備工作做好後，就可以開始使用hadoop自帶的jar包來統計檔案example.txt當中各字元的數量了。

二、執行wordcount對檔案字元進行統計

直接在NameNode節點對應的伺服器上執行——

[root@192 hadoop-2.7.5]# hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar  wordcount /input /output

這行指令的大概意思是，分散式計算統計input目錄底下的檔案中的字元數量，將統計結果reduce到output當中，故而，最後若執行沒問題，可以在output目錄下獲取到統計結果記錄。

我第一次執行時，發生了一個異常，即執行完後，日誌執行到INFO mapreduce.Job: Running job: job_1631618032849_0002這一行時，就直接卡在了這裡，沒有任何動靜了——

[hadoop@192 bin]$ hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output
21/10/20 10:43:29 INFO client.RMProxy: Connecting to ResourceManager at master1/192.168.200.111:8032
21/10/20 10:43:30 INFO input.FileInputFormat: Total input paths to process : 1
21/10/20 10:43:30 INFO mapreduce.JobSubmitter: number of splits:1
21/10/20 10:43:31 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1631618032849_0002
21/10/20 10:43:31 INFO impl.YarnClientImpl: Submitted application application_1631618032849_0002
21/10/20 10:43:31 INFO mapreduce.Job: The url to track the job: http://master1:8088/proxy/application_1631618032849_0002/
21/10/20 10:43:31 INFO mapreduce.Job: Running job: job_1631618032849_0002

百度了一番後，根據一些思路，最後將mapred-site.xml最開始的配置由

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
</configuration>

改成這裡——

<configuration>
    <property>
       <name>mapreduce.job.tracker</name>
       <value>hdfs://master1:8001</value>
       <final>true</final>
    </property>
</configuration>

接著，重啟了hadoop叢集，就正常了，日誌資訊就沒有卡頓，而是一步執行完成，列印以下的日誌記錄——

過程如果沒有出現問題，就可以到最後一步，檢視統計完的結果。

三、獲取統計結果

以上步驟執行完後，直接輸入指令檢視output目錄下的資訊，可以看到，裡面生成了兩個檔案——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /output
Found 2 items
-rw-r--r--   3 root supergroup          0 2021-10-20 12:47 /output/_SUCCESS
-rw-r--r--   3 root supergroup        101 2021-10-20 12:47 /output/part-r-00000

part-r-00000檔案是存放統計結果的，我們檢視一下——

[root@192 hadoop-2.7.5]# hdfs dfs -cat /output/part-r-00000
aaa	1
bbb	1
cccc	1
cdsvfbgf	1
dedaxa	1
dedef	1
dedf	2
ss	1
uyiuyi	1
xaxaxaxa	1
ytrytrgtrcdscdscdsc	1

對比前面的example.txt檔案，可以看到，當中dedf字串是有兩個，其他都是1個，hadoop統計結果也確實如此。

以上，便是初步認識hadoop的一個小案例，接下來，我會在學習過程當中把值得分享的經驗都總結下來。

使用MapReduce執行WordCount案例
2020-07-15
Linux下安裝Hadoop 詳解及WordCount執行
2020-11-11
LinuxHadoop
Hadoop系列，執行jar檔案命令
2020-09-30
HadoopJAR
Python學習筆記 - 多執行緒
2019-01-11
Python筆記執行緒
Linux程式執行緒學習筆記
2020-04-06
Linux執行緒筆記
Java 多執行緒學習筆記
2020-11-18
Java執行緒筆記
專案管理指南學習筆記-專案執行環境（1）
2020-11-08
專案管理筆記
samtools flagstat引數對比對的bam檔案進行統計
2024-10-26
【PB案例學習筆記】-04檔案瀏覽器
2024-06-10
筆記瀏覽器
共享記憶體對映（linux程式與執行緒學習筆記）
2020-10-05
記憶體Linux執行緒筆記
Python學習筆記|Python之執行緒
2018-12-18
Python筆記執行緒
Spring 學習筆記（五）執行時注入
2018-12-16
Spring筆記
spark學習筆記--叢集執行Spark
2018-07-12
Spark筆記
JVM學習筆記——節碼執行引擎
2018-06-28
JVM筆記
Java多執行緒學習筆記（自用）
2020-11-24
Java執行緒筆記
Linux下如何對目錄中的檔案進行統計
2020-08-24
Linux
Java併發程式設計學習筆記----執行緒池
2020-04-05
Java程式設計筆記執行緒
Hadoop學習筆記——————1、Hadoop概述
2018-07-16
Hadoop筆記
在linux系統中對檔案進行分割
2019-07-10
Linux
java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式
2020-07-14
Java大資料筆記Hadoop分散式模式
C# 多執行緒學習筆記 – 1
2019-01-31
C#執行緒筆記
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
Hadoop學習筆記—Yarn
2021-04-10
Hadoop筆記Yarn
字串學習筆記
2024-08-21
字串筆記
呼叫MapReduce對檔案中單詞出現次數進行統計
2020-12-16
Nacos 學習筆記：安裝執行初體驗
2020-11-01
筆記
Thinking in Java---多執行緒學習筆記(2)
2020-04-04
ThinkingJava執行緒筆記
{Submarine} 在 Apache Hadoop 中執行深度學習框架
2019-01-11
ApacheHadoop深度學習框架
【MongoDB學習筆記】-使用 MongoDB 進行 CRUD 操作（下）
2021-12-22
MongoDB筆記
【MongoDB學習筆記】-使用 MongoDB 進行 CRUD 操作（上）
2021-12-21
MongoDB筆記
Hadoop學習（一）——HDFS分散式檔案系統
2019-02-19
Hadoop分散式
字串家族學習筆記
2022-03-15
字串筆記
【學習筆記】字串匹配
2020-12-03
筆記字串匹配
零基礎入門Hadoop：IntelliJ IDEA遠端連線伺服器中Hadoop執行WordCount
2024-11-16
HadoopIntelliJIdea伺服器
（三）Java併發學習筆記–執行緒封閉
2018-08-14
Java筆記執行緒
React學習手冊-React執行機制筆記（二）
2018-09-28
React筆記
Sermant執行流程學習筆記，速來抄作業
2024-03-06
筆記
MYSQL學習筆記11: DQL查詢執行順序
2024-03-09
MySql筆記

hadoop學習筆記：執行wordcount對檔案字串進行統計案例

相關文章