你知道嗎?常用的資料探勘分析工具Mahout和MLlib

shenmanli發表於2017-07-20
傳統的資料探勘軟體


專用挖掘工具、通用挖掘工具
–QUEST
–MineSet
–DBMiner
–Intelligent Miner
–SAS Enterprise Miner
–SPSS Modeler


大資料探勘工具Mahout


Mahout 是Apache Software Foundation (ASF) 開發的一個開源專案
–目標是建立一些可伸縮的資料探勘演算法,供開發人員在Apache 在許可下免費使用。
–Mahout 包含許多實現,包括叢集、分類、CF 和進化程式。
–此外,通過使用Apache Hadoop庫,Mahout 可以有效地擴充套件到雲中。

Mahout的意思是大象的飼養者及驅趕者。
–Mahout 這個名稱來源於Hadoop徽標上的大象
–Mahout利用Hadoop來實現可伸縮性和容錯性。




Mahout與Hadoop家族其他主要成員關係



大資料探勘工具MLlib
MLlib是構建在Spark上的分散式資料探勘工具,利用Spark的記憶體計算,和適合迭代型計算的優勢,使效能大幅度提升。
•同時Spark運算元豐富的表現力,讓大規模資料探勘的演算法開發不再複雜
•MLlib作為Spark其中一部分,目前已經完全包含入Spark中。


資料探勘框架(Spark MLlib)
•MLlib是Spark對常用的資料探勘演算法的實現庫,同時包括相關的測試和資料生成器:
•MLlib目前支援多種常見的資料探勘問題:
–二元分類、迴歸、聚類以及協同過濾,同時也包括一個底層的梯度下降優化基礎演算法。

相關文章