Hadoop下面WordCount執行詳解

石曼迪發表於2014-05-04

單詞計數是最簡單也是最能體現MapReduce思想的程式之一，可以稱為MapReduce版"Hello World"，該程式的完整程式碼可以在Hadoop安裝包的"src/examples"目錄下找到。單詞計數主要完成功能是：統計一系列文字檔案中每個單詞出現的次數，如下圖所示。

現在我們以"hadoop"使用者登入"Master.Hadoop"伺服器。

1. 建立本地的示例資料檔案：

依次進入【Home】-【hadoop】-【hadoop-1.2.1】建立一個資料夾file用來儲存本地原始資料。

並在這個目錄下建立2個檔案分別命名為【myTest1.txt】和【myTest2.txt】或者你想要的任何檔名。

分別在這2個檔案中輸入下列示例語句：

2. 在HDFS上建立輸入資料夾

撥出終端，輸入下面指令：

bin/hadoop fs -mkdir hdfsInput

執行這個命令時可能會提示類似安全的問題，如果提示了，請使用

bin/hadoop dfsadmin -safemode leave

來退出安全模式。

當分散式檔案系統處於安全模式的情況下，檔案系統中的內容不允許修改也不允許刪除，直到安全模式結 束。安全模式主要是為了系統啟動的時候檢查各個DataNode上資料塊的有效性，同時根據策略必要的複製或者刪除部分資料塊。執行期通過命令也可以進入 安全模式。

意思是在HDFS遠端建立一個輸入目錄，我們以後的檔案需要上載到這個目錄裡面才能執行。

3. 上傳本地file中檔案到叢集的hdfsInput目錄下

在終端依次輸入下面指令：

cd hadoop-1.2.1

bin/hadoop fs -put file/myTest*.txt hdfsInput

4. 執行例子：

在終端輸入下面指令：

bin/hadoop jar hadoop-examples-1.2.1.jar wordcount hdfsInput hdfsOutput

注意，這裡的示例程式是1.2.1版本的，可能每個機器有所不一致，那麼請用*萬用字元代替版本號

bin/hadoop jar hadoop-examples-*.jar wordcount hdfsInput hdfsOutput

應該出現下面結果：

Hadoop命令會啟動一個JVM來執行這個MapReduce程式，並自動獲得Hadoop的配置，同時把類的路徑（及其依賴關係）加入到Hadoop的庫中。以上就是Hadoop Job的執行記錄，從這裡可以看到，這個Job被賦予了一個ID號：job_201202292213_0002，而且得知輸入檔案有兩個（Total input paths to process : 2），同時還可以瞭解map的輸入輸出記錄（record數及位元組數），以及reduce輸入輸出記錄。

檢視HDFS上hdfsOutput目錄內容：

在終端輸入下面指令：

bin/hadoop fs -ls hdfsOutput

從上圖中知道生成了三個檔案，我們的結果在"part-r-00000"中。

使用下面指令檢視結果輸出檔案內容

bin/hadoop fs -cat output/part-r-00000

（注意：請忽視截圖指令中的3）

輸出目錄日誌以及輸入目錄中的檔案是永久存在的，如果不刪除的話，如果出現結果不一致，請參考這個因素。

Linux下安裝Hadoop 詳解及WordCount執行
2020-11-11
LinuxHadoop
hadoop學習筆記：執行wordcount對檔案字串進行統計案例
2021-10-20
Hadoop筆記字串
使用MapReduce執行WordCount案例
2020-07-15
零基礎入門Hadoop：IntelliJ IDEA遠端連線伺服器中Hadoop執行WordCount
2024-11-16
HadoopIntelliJIdea伺服器
詳解：Hadoop生態元件Yarn之長期執行服務支援篇！
2018-07-30
Hadoop元件Yarn
Hadoop Shuffle詳解
2018-09-07
Hadoop
多執行緒詳解
2018-11-05
執行緒
詳解多執行緒
2019-04-24
執行緒
PHP 執行方式詳解
2022-09-19
PHP
詳解Java執行緒安全
2019-04-09
Java執行緒
iOS 多執行緒詳解
2018-05-15
iOS執行緒
iOS執行器performSelector詳解
2019-05-06
iOSperformSelector
js執行機制詳解
2018-03-06
JS
Java執行緒池詳解
2024-08-20
Java執行緒
Explain執行計劃詳解
2022-01-24
AI
Java多執行緒詳解
2021-04-10
Java執行緒
Java 執行緒池詳解
2021-03-31
Java執行緒
Hadoop-叢集執行
2022-04-04
Hadoop
hadoop(二)—hadoop配置、執行錯誤總結
2021-09-09
Hadoop
多執行緒03：?執行緒傳參詳解
2022-05-11
執行緒
Java 執行時（RUNTIME）註解詳解
2018-09-07
Java
詳解GaussDB(DWS)中的行執行引擎
2024-05-11
mysql explain 執行計劃詳解
2019-01-06
MySqlAI
Android 多執行緒-----AsyncTask詳解
2018-09-10
Android執行緒
mysql後臺執行緒詳解
2020-01-24
MySql執行緒
iOS多執行緒：NSOperation詳解
2020-03-19
iOS執行緒
iOS多執行緒：GCD詳解
2020-03-15
iOS執行緒GC
JAVA多執行緒詳解(一)
2020-11-05
Java執行緒
MySQL執行緒狀態詳解
2019-06-05
MySql執行緒
IDEA執行maven專案詳解
2024-10-11
IdeaMaven
MySQL Explain執行計劃 - 詳解
2021-09-25
MySqlAI
Java 多執行緒詳解（一）
2020-12-14
Java執行緒
Java多執行緒超詳解
2020-11-25
Java執行緒
搭建本地執行Hadoop環境
2018-11-01
Hadoop
hadoop的mapreduce串聯執行
2018-09-01
Hadoop
.Net for Spark 實現 WordCount 應用及除錯入坑詳解
2019-06-29
Spark除錯
Jquery ajax載入等待執行結束再繼續執行下面程式碼操作
2019-02-16
jQuery
java多執行緒與併發 - 執行緒池詳解
2018-03-13
Java執行緒
JAVA多執行緒詳解（3）執行緒同步和鎖
2020-12-04
Java執行緒

Hadoop下面WordCount執行詳解

1. 建立本地的示例資料檔案：

2. 在HDFS上建立輸入資料夾

3. 上傳本地file中檔案到叢集的hdfsInput目錄下

4. 執行例子：

相關文章