在 Apache Spark 中使用機器學習進行客戶細分

banq發表於2021-12-23

在這個專案中,我們將執行機器學習最重要的應用之一——客戶細分。無論何時您需要找到最佳客戶,我們都會在 Apache Spark 和 Scala 中實施客戶細分。
客戶細分是將公司的客戶劃分為反映每組客戶之間相似性的組的做法。細分客戶的目標是決定如何與每個細分中的客戶建立聯絡,以最大化每個客戶對業務的價值。
客戶細分是無監督學習最重要的應用之一。在這個機器學習專案中,我們將使用 K-means 聚類,這是對未標記資料集進行聚類的基本演算法。
 
屬性資訊或資料集詳細資訊:
  1. 客戶ID
  2. 性別
  3. 年齡
  4. 年收入(千元)
  5. 支出分數 (1-100)

使用的技術
  1. Apache Spark
  2. Spark SQL
  3. Apache Spark MLLib
  4. Scala
  5. DataFrame-based API
  6. Apache Zeppelin Notebook

我們將學習:
  1. 準備處理資料。
  2. 本課程介紹 Apache Spark 中的資料流、載入資料和處理資料的基礎知識,向您展示 Apache Spark 如何非常適合機器學習工作。
  3. 瞭解 Apache Zeppelin 的基礎知識
  4. 定義機器學習管道
  5. 訓練機器學習模型
  6. 測試機器學習模型
  7. 評估機器學習模型(即檢查預測值和實際值)
  8. 目標是為您提供實用的工具,這些工具將在未來對您有益。這樣做時,您將開發一個具有實際使用機會的模型。

詳細步驟點選標題
 

相關文章