資料探勘(5):使用mahout做海量資料關聯規則挖掘

發表於2015-08-29

上一篇介紹了用開源資料探勘軟體weka做關聯規則挖掘,weka方便實用,但不能處理大資料集,因為記憶體放不下,給它再多的時間也是無用,因此需要進行分散式計算,mahout是一個基於hadoop的分散式資料探勘開源專案(mahout本來是指一個騎在大象上的人)。掌握了關聯規則的基本演算法和使用,加上分散式關聯規則挖掘後,就可以處理基本的關聯規則挖掘工作了,實踐中只需要把握業務,理解資料便可遊刃有餘。

 

安裝mahout

騎在大象上的俠士必然需要一頭雄糾糾的大象,不過本文不解紹大象hadoop,所以我假定已經安裝好了hadoop,關於hadoop的安裝,請google。

Apache官網下載mahout8.0

解壓

移動

配置

輸入以下內容:

退出使用者重新登入,使配置檔案生效。輸入mahout -version測試是否安裝成功。

 

資料準備

http://fimi.ua.ac.be/data/下載一個購物籃資料retail.dat。

上傳到hadoop檔案系統

呼叫FpGrowth演算法

-i表示input,-o表示-output,-s表示最小支援度,'[\ ]’表示以行內的資料以空格分開。

一兩分鐘後執行完畢,生成的檔案被序列化了,直接檢視會是亂碼,因此需要用mahout還原回來:

輸出結果:

這裡輸出的只是頻繁項集,但在此基礎上提取關聯規則已經不是難事。

相關文章