spark機器學習：使用ALS完成商品推薦

你这过氧化氢掺水了發表於2024-11-28

原文網址 : https://www.cnblogs.com/h4o3/p/18574278

ALS（Alternating Least Squares）是一種廣泛使用的推薦系統演算法，特別用於協同過濾（Collaborative Filtering）任務。在 Apache Spark 中，ALS 被實現為 org.apache.spark.ml.recommendation.ALS 類，適用於大規模資料集，並能夠有效地處理稀疏矩陣，常用於推薦引擎。

ALS 演算法的基本思想
在Spark 中使用 ALS
ALS實踐練習

ALS 演算法的基本思想

ALS 的主要思想是：

分解矩陣：ALS 透過將使用者-專案評分矩陣分解為兩個低秩矩陣——使用者特徵矩陣和專案特徵矩陣。這使得可以透過使用者和專案之間的特徵相似度來預測評分。
交替最佳化：該演算法交替地固定使用者特徵矩陣和專案特徵矩陣，並透過最小化損失函式（通常是均方誤差）來最佳化這兩個矩陣。具體的最佳化步驟是：
- 在固定專案特徵矩陣的情況下，最佳化使用者特徵矩陣。
- 然後在固定使用者特徵矩陣的情況下，最佳化專案特徵矩陣。
- 重複以上步驟直到收斂。

在Spark 中使用 ALS

在 Spark 中，ALS 提供了一種簡單而高效的方式來構建推薦模型。以下是使用 Spark 中的 ALS 的基本步驟：

匯入必要的庫：

import org.apache.spark.ml.recommendation.ALS
import org.apache.spark.sql.SparkSession

建立 Spark 會話：

val spark = SparkSession.builder()
    .appName("ALSExample")
    .getOrCreate()

準備資料：

資料應包含使用者 ID、專案 ID 和評分，通常以 DataFrame 格式儲存。

val ratings = Seq(
    (0, 0, 4), 
    (0, 1, 2),
    (1, 0, 5), 
    (1, 1, 1)
).toDF("userId", "itemId", "rating")

構建 ALS 模型：

val als = new ALS()
    .setUserCol("userId")
    .setItemCol("itemId")
    .setRatingCol("rating")
    .setColdStartStrategy("drop") // 保證對待沒有評分的預測結果的處理
    .setRank(10) // 設定特徵向量的維度
    .setMaxIter(10) // 最大迭代次數

val model = als.fit(ratings)

生成推薦：

可以使用模型生成使用者和專案的推薦。

val userRecs = model.recommendForAllUsers(5) // 為所有使用者推薦 5 個專案
val itemRecs = model.recommendForAllItems(5) // 為所有專案推薦 5 個使用者

ALS實踐練習

資料展示：
三列資料分別為使用者 ID、物品 ID 和評分

1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
2,3,5.0
2,4,1.0
3,1,1.0
3,2,5.0
3,3,1.0
3,4,5.0
4,1,1.0
4,2,5.0
4,3,1.0
4,4,5.0

在hdfs檔案系統，建立目錄，名為mymllib5，並將linux上的myrating檔案資料，上傳到hdfs

hadoop fs -mkdir /mymllib5
hadoop fs -put /myrating /mymllib5

啟動spark-shell

spark-shell

為了執行協同過濾操作，需要首先匯入執行統計所依賴的包

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.recommendation.ALS
import org.apache.spark.mllib.recommendation.MatrixFactorizationModel
import org.apache.spark.mllib.recommendation.Rating

讀取hdfs上的myrating文字檔案

val data = sc.textFile("hdfs://192.168.88.161:8020/mymllib5/myrating")

把資料轉化成rating型別，即[Int, Int, Double]的RDD；

val ratings = data.map(_.split(",") match {  
	case Array(user, item, rate) =>  
	Rating(user.toInt, item.toInt, rate.toDouble)  
	})

檢查一下資料格式是否符合要求

ratings.foreach{x => println(x)}

劃分訓練集和測試集，比例分別是0.8和0.2。

val splits = ratings.randomSplit(Array(0.8, 0.2))

將80%作為訓練資料集

val training = splits(0)

將20%作為測試資料集

val test = splits(1)

指定引數值，然後使用ALS訓練資料建立推薦模型：

val rank = 10
val numIterations = 10
val model = ALS.train(training, rank, numIterations, 0.01)

使用訓練好的推薦模型對使用者商品進行預測評分，得到預測評分的資料集

val testUsersProducts = test.map { case Rating(user, product, rate) => (user, product) }

使用訓練好的推薦模型對使用者商品進行預測評分，得到預測評分的資料集：

val predictions =
    model.predict(testUsersProducts).map { case Rating(user, product, rate) =>((user, product), rate)
	}

將真實評分資料集與預測評分資料集進行合併。這裡，Join操作類似於SQL的inner join操作，返回結果是前面和後面集合中配對成功的，過濾掉關聯不上的。

val ratesAndPreds = test.map { case Rating(user, product, rate) => ((user, product), rate) }.join(predictions)

我們把結果輸出，對比一下真實結果與預測結果：

ratesAndPreds.foreach(println)

檢視輸出效果：

比如，第一條結果記錄((1,4),(1.0,2.0765385175171436))中，(1,4)分別表示1號使用者和4號商品，而1.0是實際的估計分值，2.0765385175171436是經過推薦的預測分值。

當然，我們也可以針對於某一個人進行預測，對比結果。

val result = model.recommendProducts(2, 1)
result.foreach(println)

然後計算均方差，這裡的r1就是真實結果，r2就是預測結果：

val MSE = ratesAndPreds.map { case ((user, product), (r1, r2)) => 
	    val err = (r1 - r2) 
	    err * err 
	}.mean()

把輸出結果列印出來：

println("Mean Squared Error = " + MSE)

輸出效果：
看到打分的均方差值為1.44左右

機器學習專案 - 使用 Apache Spark 建立電影推薦引擎
2021-12-24
機器學習ApacheSpark
機器學習必看書籍推薦
2020-12-03
機器學習
機器學習/深度學習書單推薦及學習方法
2018-04-12
機器學習深度學習
商品推薦
2021-07-16
Spotify 每週推薦功能：基於機器學習的音樂推薦
2019-02-27
機器學習
用Spark學習矩陣分解推薦演算法
2018-09-30
Spark矩陣演算法
機器學習知識體系 (強烈推薦)
2018-06-14
機器學習
推薦 | 機器學習開源專案 Top 10
2019-02-21
機器學習
【推薦】最常用的Python機器學習及深度學習庫合集！
2022-11-23
Python機器學習深度學習
10 個機器學習教程彙總，愛可可推薦！
2019-10-08
機器學習
機器學習完整資源推薦（持續更新中）
2020-12-13
機器學習
機器學習之使用Python完成邏輯迴歸
2019-07-10
機器學習Python邏輯迴歸
機器學習和資料科學領域，推薦幾本學習書單
2019-03-23
機器學習資料科學
吳恩達機器學習筆記 —— 17 推薦系統
2018-08-01
吳恩達機器學習筆記
metarank: 推薦排名類的低程式碼機器學習工具
2022-04-01
機器學習
推薦系統入門之使用ALS演算法實現打分預測
2021-03-08
演算法
在 Apache Spark 中使用機器學習進行客戶細分
2021-12-23
ApacheSpark機器學習
【好書推薦】推薦一份從入門到進階的機器學習書單
2021-03-27
機器學習
推薦系統入門之使用協同過濾實現商品推薦
2021-03-11
機器學習 | 基於機器學習的推薦系統客戶購買可能性預測分析
2020-12-07
機器學習
學習Django的推薦
2021-06-12
Django
【機器學習PAI實戰】—— 玩轉人工智慧之美食推薦
2019-03-26
機器學習AI人工智慧
分散式機器學習框架與高維實時推薦系統
2020-07-20
分散式機器學習框架
從零開始學機器學習——構建一個推薦web應用
2024-10-17
機器學習Web
機器學習庫Spark MLlib簡介與教程
2021-12-29
機器學習Spark
Spark推薦系統實踐
2021-01-12
Spark
推薦 | 掌握這12條經驗，對理解機器學習至關重要！
2018-08-02
機器學習
我最推薦的一本技術書《機器學習實戰》
2020-04-29
機器學習
使用大模型Transformer提升商品推薦的使用者體驗
2024-05-02
大模型ORM
為什麼推薦使用Ubuntu 18.04 LTS學習機器人作業系統ROS 1和2
2018-11-21
Ubuntu機器人作業系統ROS
微軟推Azure機器學習工具
2021-09-09
微軟機器學習
谷歌大腦團隊官方推薦 | JavaScript 機器學習領域必讀之作
2021-03-17
谷歌JavaScript機器學習
Spark-Streaming的學習使用
2019-04-12
Spark
機器人底盤品牌推薦
2021-03-12
機器人
從Spark MLlib到美圖機器學習框架實踐
2018-10-19
Spark機器學習框架
機器學習實踐：如何將Spark與Python結合？
2018-06-21
機器學習SparkPython
學習Hadoop最佳書籍推薦
2021-12-29
Hadoop
phper gopher 學習網站推薦
2022-04-15
PHPGo學習網站

spark機器學習：使用ALS完成商品推薦

ALS 演算法的基本思想

在Spark 中使用 ALS

ALS實踐練習

相關文章