Spark學習筆記——泰坦尼克生還預測

weixin_34162629發表於2017-05-26

package kaggle

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.sql.{SQLContext, SparkSession}
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD, NaiveBayes, SVMWithSGD}
import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics


/**
  * Created by mi on 17-5-23.
  */


object Titanic {


  def main(args: Array[String]) {

    //    val sparkSession = SparkSession.builder.
    //      master("local")
    //      .appName("spark session example")
    //      .getOrCreate()
    //    val rawData = sparkSession.read.csv("/home/mi/下載/kaggle/Titanic/nohead-train.csv")
    //    val d = rawData.map{p => p.asInstanceOf[person]}
    //    d.show()

    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    //遮蔽日誌
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

    // 讀取資料
    val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "/home/mi/下載/kaggle/Titanic/train.csv", "header" -> "true"))

    // 分析年齡資料
    val ageAnalysis = df.rdd.filter(d => d(5) != null).map { d =>
      val age = d(5).toString.toDouble
      Vectors.dense(age)
    }
    val ageMean = Statistics.colStats(ageAnalysis).mean(0)
    val ageMax = Statistics.colStats(ageAnalysis).max(0)
    val ageMin = Statistics.colStats(ageAnalysis).min(0)
    val ageDiff = ageMax - ageMin

    // 分析船票價格資料
    val fareAnalysis = df.rdd.filter(d => d(9) != null).map { d =>
      val fare = d(9).toString.toDouble
      Vectors.dense(fare)
    }
    val fareMean = Statistics.colStats(fareAnalysis).mean(0)
    val fareMax = Statistics.colStats(fareAnalysis).max(0)
    val fareMin = Statistics.colStats(fareAnalysis).min(0)
    val fareDiff = fareMax - fareMin


    // 資料預處理
    val trainData = df.rdd.map { d =>
      val label = d(1).toString.toInt
      val sex = d(4) match {
        case "male" => 0.0
        case "female" => 1.0
      }
      val age = d(5) match {
        case null => (ageMean - ageMin) / ageDiff
        case _ => (d(5).toString().toDouble - ageMin) / ageDiff
      }
      val fare = d(9) match {
        case null => (fareMean - fareMin) / fareDiff
        case _ => (d(9).toString().toDouble - fareMin) / fareDiff
      }

      LabeledPoint(label, Vectors.dense(sex, age, fare))
    }

    // 切分資料集和測試集
    val Array(trainingData, testData) = trainData.randomSplit(Array(0.8, 0.2))

    // 訓練資料
    val numIterations = 8
    val lrModel = new LogisticRegressionWithLBFGS().setNumClasses(2).run(trainingData)
    //    val svmModel = SVMWithSGD.train(trainingData, numIterations)

    val nbTotalCorrect = testData.map { point =>
      if (lrModel.predict(point.features) == point.label) 1 else 0
    }.sum
    val nbAccuracy = nbTotalCorrect / testData.count

    println("SVM模型正確率：" + nbAccuracy)

    // 預測
    // 讀取資料
    val testdf = sqlContext.load("com.databricks.spark.csv", Map("path" -> "/home/mi/下載/kaggle/Titanic/test.csv", "header" -> "true"))

    // 分析測試集年齡資料
    val ageTestAnalysis = testdf.rdd.filter(d => d(4) != null).map { d =>
      val age = d(4).toString.toDouble
      Vectors.dense(age)
    }
    val ageTestMean = Statistics.colStats(ageTestAnalysis).mean(0)
    val ageTestMax = Statistics.colStats(ageTestAnalysis).max(0)
    val ageTestMin = Statistics.colStats(ageTestAnalysis).min(0)
    val ageTestDiff = ageTestMax - ageTestMin

    // 分析船票價格資料
    val fareTestAnalysis = testdf.rdd.filter(d => d(8) != null).map { d =>
      val fare = d(8).toString.toDouble
      Vectors.dense(fare)
    }
    val fareTestMean = Statistics.colStats(fareTestAnalysis).mean(0)
    val fareTestMax = Statistics.colStats(fareTestAnalysis).max(0)
    val fareTestMin = Statistics.colStats(fareTestAnalysis).min(0)
    val fareTestDiff = fareTestMax - fareTestMin

    // 資料預處理
    val data = testdf.rdd.map { d =>
      val sex = d(3) match {
        case "male" => 0.0
        case "female" => 1.0
      }
      val age = d(4) match {
        case null => (ageTestMean - ageTestMin) / ageTestDiff
        case _ => (d(4).toString().toDouble - ageTestMin) / ageTestDiff
      }
      val fare = d(8) match {
        case null => (fareTestMean - fareTestMin) / fareTestDiff
        case _ => (d(8).toString().toDouble - fareTestMin) / fareTestDiff
      }

      Vectors.dense(sex, age, fare)
    }

    val predictions = lrModel.predict(data).map(p => p.toInt)
    // 儲存預測結果
    predictions.coalesce(1).saveAsTextFile("file:///home/mi/下載/kaggle/Titanic/test_predict")
  }
}

泰坦尼克生還預測：完整的機器學習專案(一)
2018-05-23
機器學習
spark學習筆記--Spark SQL
2018-07-13
Spark筆記SQL
spark學習筆記
2020-11-01
Spark筆記
Spark 學習筆記
2015-05-27
Spark筆記
spark學習筆記-- Spark Streaming
2018-08-03
Spark筆記
spark學習筆記--RDD
2018-07-05
Spark筆記
Spark學習筆記（三）-Spark Streaming
2020-06-24
Spark筆記
spark學習筆記--叢集執行Spark
2018-07-12
Spark筆記
spark學習筆記--Spark調優與除錯
2018-07-12
Spark筆記除錯
spark學習筆記--RDD鍵對操作
2018-07-06
Spark筆記
頭歌實踐教學平臺-泰坦尼克生還預測——視覺化與探索性資料分析-答案
2024-06-29
視覺化
python 分析泰坦尼克號生還率
2019-03-04
Python
spark學習筆記--進階程式設計
2018-07-09
Spark筆記程式設計
Spark學習筆記——手寫數字識別
2017-05-25
Spark筆記
學習筆記之測試
2019-03-27
筆記
spark學習筆記--資料讀取與儲存
2018-07-09
Spark筆記
【軟體測試】學習筆記
2024-06-06
筆記
Bullet 學習筆記之 BugList 生產日記
2024-05-27
筆記
【筆記】動手學深度學習-預備知識
2024-04-25
筆記深度學習
Spark學習——記憶體管理
2019-04-02
Spark記憶體
spark筆記
2020-11-20
Spark筆記
JMM測試利器-JCStress學習筆記
2023-05-16
筆記
SAP ME學習筆記（六）搭建生產線
2020-11-20
筆記
numpy的學習筆記\pandas學習筆記
2018-03-18
筆記
基於sklearn的波士頓房價預測_線性迴歸學習筆記
2021-04-02
筆記
TensorFlow/TFLearn學習案例：泰坦尼克
2016-07-27
Allure測試報告完整學習筆記
2022-01-23
測試報告筆記
Jest 測試框架使用的學習筆記
2021-10-02
框架筆記
OpenCV學習筆記-Harris角點檢測
2018-06-02
OpenCV筆記
Sqlite學習筆記(三)&&WAL效能測試
2015-08-24
SQLite筆記
mediasoup 學習筆記【三】 Producer 資料生產者
2020-12-03
筆記
圖形學學習筆記二：觀測變換
2020-12-22
筆記
IT學習筆記
2009-10-14
筆記
學習筆記
2024-04-14
筆記
Spark MLlib 入門學習筆記 - 程式設計環境配置
2017-05-18
Spark筆記程式設計
軟體測試學習筆記：測試點總結
2013-08-30
筆記
spark 學習
2020-04-22
Spark
h5學習筆記：sessionStorage 小測試
2019-03-11
H5筆記Session

Spark學習筆記——泰坦尼克生還預測

相關文章