上一篇介紹了用開源資料探勘軟體weka做關聯規則挖掘,weka方便實用,但不能處理大資料集,因為記憶體放不下,給它再多的時間也是無用,因此需要進行分散式計算,mahout是一個基於hadoop的分散式資料探勘開源專案(mahout本來是指一個騎在大象上的人)。掌握了關聯規則的基本演算法和使用,加上分散式關聯規則挖掘後,就可以處理基本的關聯規則挖掘工作了,實踐中只需要把握業務,理解資料便可遊刃有餘。
安裝mahout
騎在大象上的俠士必然需要一頭雄糾糾的大象,不過本文不解紹大象hadoop,所以我假定已經安裝好了hadoop,關於hadoop的安裝,請google。
到Apache官網下載mahout8.0
解壓
1 |
tar -zxvf mahout-distribution-0.8.tar.gz |
移動
1 |
sudo mv tar mahout-distribution-0.8 /usr/local/mahout-8 |
配置
1 |
sudo gedit /etc/profile |
輸入以下內容:
1 2 3 4 |
export MAHOUT_HOME=/usr/local/mahout-8 export PATH=$MAHOUT_HOME/bin:$PATH export HADOOP_HOME=/usr/local/hadoop export PATH=$HADOOP_HOME/bin:$PATH |
退出使用者重新登入,使配置檔案生效。輸入mahout -version測試是否安裝成功。
資料準備
到http://fimi.ua.ac.be/data/下載一個購物籃資料retail.dat。
上傳到hadoop檔案系統
1 2 |
hadoop fs -mkdir /user/hadoop/mahoutData #建立目錄 hadoop fs -put ~/data/retail.dat /user/hadoop/mahoutData |
呼叫FpGrowth演算法
1 |
mahout fpg -i /user/hadoop/mahoutData/retail.dat -o patterns -method mapreduce -s 1000 -regex '[\ ]' |
-i表示input,-o表示-output,-s表示最小支援度,'[\ ]’表示以行內的資料以空格分開。
一兩分鐘後執行完畢,生成的檔案被序列化了,直接檢視會是亂碼,因此需要用mahout還原回來:
1 |
mahout seqdumper -i /user/hadoop/patterns/fpgrowth/part-r-00000 -o ~/data/patterns.txt |
輸出結果:
1 2 3 4 5 6 7 8 |
Key: 39: Value: ([39],50675) Key: 48: Value: ([48],42135), ([39, 48],29142) Key: 38: Value: ([38],15596), ([39, 38],10345), ([48, 38],7944), ([39, 48, 38],6102) Key: 32: Value: ([32],15167), ([39, 32],8455), ([48, 32],8034), ([39, 48, 32],5402), ([38, 32],2833), ([39, 38, 32],1840), ([48, 38, 32],1646), ([39, 48, 38, 32],1236) Key: 41: Value: ([41],14945), ([39, 41],11414), ([48, 41],9018), ([39, 48, 41],7366), ([38, 41],3897), ([32, 41],3196), ([39, 38, 41],3051), ([48, 38, 41],2374), ([39, 32, 41],2359), ([48, 32, 41],2063), ([39, 48, 38, 41],1991), ([39, 48, 32, 41],1646) Key: 65: Value: ([65],4472), ([39, 65],2787), ([48, 65],2529), ([39, 48, 65],1797) Key: 89: Value: ([89],3837), ([48, 89],2798), ([39, 89],2749), ([39, 48, 89],2125) Key: 225: Value: ([225],3257), ([39, 225],2351), ([48, 225],1736), ([39, 48, 225],1400) |
這裡輸出的只是頻繁項集,但在此基礎上提取關聯規則已經不是難事。