Spark 雜記1-專案使用經驗

SigmaInfinity發表於2018-09-01

Spark 作為當前主流的計算引擎,以在專案中的實踐為例,談談Spark的使用。

  1. Spark 進行資料統計,使用RDD相關操作,統計產品的新增,日活躍,累計安裝,累計啟用,每日訂購量等相關指標。同時在多維度的統計中 Spark SQL 的使用方式非常的方便。
  2. Spark 機器學習,在專案對文字分類,做使用者協同過濾推薦,或者使用深度學習的方式做推薦。Spark ML 是一個非常優秀的工具包,裡面包含了常見的機器學習演算法。同時Spark在記憶體計算引擎中的佼佼者,Spark生態圈中,DL4J + Spark, Xgboost + Spark 等都是比較優秀候選項。
  3. Spark 實時統計,Spark Steaming 實時統計產品的流量,使用者量,交易量等。

相關文章