快速開始執行Hadoop的示例程式WordCount

朱求志發表於2015-05-03

1. 從Apache官網下載Hadoop到已經裝有jdk的GNU/Linux
下載地址: http://www.apache.org/dyn/closer.cgi/hadoop/common/
然後選擇一個下載映象來下載。
下載映象裡面有幾種軟體包,如 hadoop-1.2.1.tar.gz 和 hadoop-1.2.1-bin.tar.gz。
它們的唯一區別是hadoop-1.2.1-bin.tar.gz的子目錄src裡面有Hadoop的原始碼。
為了以後學習的方便還是下載hadoop-1.2.1.tar.gz

2. 解壓
tar xfz hadoop-1.2.1.tar.gz

3. 切換當前工作目錄,並嘗試執行hadoop命令
cd hadoop-1.2.1
bin/hadoop
這時輸出命令hadoop的幫助列表,其中有一個選項是jar,用法是
jar run a jar file

4.建立輸入資料夾,並隨便放入一個文字檔案。
mkdir input
cp LICENSE.txt input

5.開始執行wordcount
bin/hadoop jar hadoop-examples-1.2.1.jar wordcount input output
執行結果在資料夾ouput的part-r-00000中
wordcount的原始檔是src/examples/org/apache/hadoop/examples/WordCount.java

相關文章