利用Hadoop執行第一個程式,計算文章中不同單詞數量

符智生發表於2018-01-07
今天通過Hadoop來執行第一個程式,來統計一篇文章中不同英文單詞的個數。
1.建立一個 t1.txt 資料夾,並將你要統計的文章貼上進去。(這裡是將txt檔案建立在E盤中,跟Hadoop檔案同處於一個盤)
2.在命令提示符下 Hadoop-2.7.3\sbin 中輸入 start-all.cmd 開啟Hadoop服務
3.準備輸入、輸出資料夾,在HDFS檔案系統中建立。
Hadoop中所有的資料都必須放在HDFS檔案系統中進行處理。
命令提示符中 Hadoop-2.7.3\sbin 下輸入 hadoop fs -mkdir hdfs://localhost:9000/test/input(建立資料夾,localhost:9000為hdfs的系統目錄,test和input是現在要建立的檔名)
輸入 hadoop fs -ls hdfs://localhost:9000/test/ 檢視檔案是否建立成功
4.上傳需要統計的 t1 檔案到 hdfs://localhost:9000/test/input 上
hadoop fs -put E:\t1.txt hdfs://localhost:9000/test/input
5.下載https://pan.baidu.com/s/1cmBJ7S中的 wordcount.jar 到E盤中。
wordcount.jar是Java編寫的一個MapReduce計算單詞數量的程式
6. 在jar包所在的路徑,執行以下命令 hadoop jar wordcount.jar hdfs://localhost:9000/test/input hdfs://localhost:9000/test/output,執行命令之後,顯示如下

7.hadoop fs -ls hdfs://localhost:9000/test/output檢視結果檔案
8.hadoop fs -cat hdfs://localhost:9000/test/output/patr-r-00000檢視輸出結果

9.hadoop fs -get hdfs://localhost:9000/test/output/patr-r-00000下載計算結果到本地




相關文章