機器學習專案 - 使用 Apache Spark 建立電影推薦引擎

banq發表於2021-12-24

在這個專案中,我們將為每個使用者生成前 10 名電影推薦,併為每部電影生成前 10 名使用者推薦。
無論年齡、性別、種族、膚色或地理位置如何,每個人都喜歡電影。推薦系統是一個過濾程式,其主要目標是預測使用者對特定領域專案或專案的“評級”或“偏好”。推薦系統包含一類可以向使用者建議“相關”專案的技術和演算法。他們透過多種技術根據過去的資料預測未來的行為。
 
屬性資訊或資料集詳細資訊:
  1. 使用者身份
  2. 電影ID
  3. 評分
  4. 時間戳

 
使用的技術
  1. Apache Spark
  2. Spark SQL
  3. Apache Spark MLLib
  4. Scala
  5. DataFrame-based API
  6. Databricks Notebook


使用 Apache Spark 機器學習建立電影推薦引擎的專案,使用 Databricks 平臺社群版伺服器,它允許您執行您的 Spark 程式碼,只需透過電子郵件 ID 註冊即可在他們的伺服器上免費執行。
在這個專案中,我們探索了 Databricks 平臺上的 Apache Spark 和機器學習。
我們將看看如何設定 Spark Cluster 並開始使用它。然後我們將看看我們如何使用 Spark Cluster 來獲取進入 Spark Cluster 的資料,這是一個使用機器學習模型處理資料的過程,並以預測的形式生成某種輸出。這幾乎就是我們將要了解的有關預測模型的內容。
在這個專案中,我們將建立電影推薦引擎,該引擎將為每個使用者生成前 10 名電影推薦,併為每部電影生成前 10 名使用者推薦。
我們將學習:
  1. 準備處理資料。
  2. 本課程介紹 Apache Spark 中的資料流、載入資料和處理資料的基礎知識,向您展示 Apache Spark 如何非常適合機器學習工作。
  3. 透過註冊免費社群版伺服器來學習 Databricks notebook 的基礎知識
  4. 定義機器學習管道
  5. 訓練機器學習模型
  6. 測試機器學習模型
  7. 評估機器學習模型(即檢查預測值和實際值)
  8. 目標是為您提供實用的工具,這些工具將在未來對您有益。這樣做時,您將開發一個具有實際使用機會的模型。

詳細點選標題


 

相關文章