Mahout學習之命令列建立序列檔案

Thinkgamer_gyt發表於2015-10-11

一:命令列轉換

建立新的工作目錄

mkdir lastfm

mkdir ./lastfm/original

export WORK_DIR=/home/thinkgamer/document/lastfm

cd $WORK_DIR

自己準備一個資料集放在original資料夾下,例如將點選開啟連結下邊的資料儲存在synthetic_control.data中進行轉換,首先將其放在origiinal資料夾中

進入mahout的安裝目錄,前提是hadoop環境是啟動的

cd /usr/local/hadoop/mahout

bin/mahout seqdirectory -i $WORK_DIR/original -o $WORK_DIR/sequencesfile

然後進入$WORK_DIR目錄下有一個sequencesfile資料夾

cd $WORK_DIR

cd sequencesfile

ls

會顯示如下:

part-m-00000  _SUCCESS

命令列檢視part-m-00000的檔案內容為:

bin/mahout seqdumper -i $WORK_DIR/sequencesfile/part-m-00000 | more0

二:mapreduce轉換

具體請參考mahout執行canopy程式中的程式:點選開啟連結

三:命令列轉換為文字檔案

bin/mahout seqdumper -i $WORK_DIR/sequencesfile/part-m-00000 -o $WORK_DIR/clusteranalyzer

mahout版本不同如果上邊的不好使,換用下邊的

bin/mahout seqdumper -s $WORK_DIR/sequencesfile/part-m-00000 -o $WORK_DIR/clusteranalyzer

相關文章