Mahout安裝與配置

風的王子發表於2013-10-13

Mahout是Hadoop的一種高階應用。執行Mahout需要提前安裝好Hadoop。Hadoop的安裝網上很多,並不複雜,這裡不再講述,接下來闡述怎麼安裝Mahout。
1:下載二進位制解壓安裝。
到http://labs.renren.com/apache-mirror/mahout/0.7下載,我選擇下載二進位制包,直接解壓及可。

hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz 


2:配置環境變數:在/etc/profile,/home/hadoop/.bashrc中新增如下紅色資訊
#set java environment
MAHOUT_HOME=/home/hadoop/mahout-distribution-0.7
PIG_HOME=/home/hadoop/pig-0.9.2
HBASE_HOME=/home/hadoop/hbase-0.94.3
HIVE_HOME=/home/hadoop/hive-0.9.0
HADOOP_HOME=/home/hadoop/hadoop-1.1.1
JAVA_HOME=/home/hadoop/jdk1.7.0
PATH=$JAVA_HOME/bin:$PIG_HOME/bin:$MAHOUT_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$HBASE_HOME/lib:$MAHOUT_HOME/lib:$PIG_HOME/lib:$HIVE_HOME/lib:$JAVA_HOME/lib/tools.jar
export MAHOUT_HOME
export PIG_HOME
export HBASE_HOME
export HADOOP_HOME
export JAVA_HOME
export HIVE_HOME
export PATH
export CLASSPATH

3:啟動hadoop,也可以用偽分散式來測試

4:mahout --help    #檢查Mahout是否安裝完好,看是否列出了一些演算法

5:mahout使用準備
a.下載一個檔案synthetic_control.data,下載地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,並把這個檔案放在$MAHOUT_HOME目錄下。

b.啟動Hadoop:$HADOOP_HOME/bin/start-all.sh

c.建立測試目錄testdata,並把資料匯入到這個tastdata目錄中(這裡的目錄的名字只能是testdata)

hadoop@ubuntu:~/$ hadoop fs -mkdir testdata #
hadoop@ubuntu:~/$ hadoop fs -put /home/hadoop/mahout-distribution-0.7/synthetic_control.data testdata


d.使用kmeans演算法(這會執行幾分鐘左右)

hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


e.檢視結果

hadoop@ubuntu:~/$ hadoop fs -lsr output

如果看到以下結果那麼演算法執行成功,你的安裝也就成功了。
clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4 clusters-5  clusters-6  clusters-7  clusters-8  clusters-9  data

相關文章