機器學習實戰 | 性別預測模型的構建與優化

TalkingData發表於2020-05-27

基於使用者畫像進行廣告投放,是優化投放效果、實現精準營銷的基礎;而人口屬性中的性別、年齡等標籤,又是使用者畫像中的基礎資訊。那該如何儘量準確的為資料打上這些標籤?

這時候機器學習就派上用場了。本文將以性別標籤為例,介紹人口屬性標籤預測的機器學習模型構建與優化。

性別標籤預測流程

通常情況下,無監督學習不僅很難學習到有用資訊,而且對於學習到的效果較難評估。所以,如果可以,我們會盡可能地把問題轉化成有監督學習。

對於性別標籤也是如此,我們可以使用可信的性別樣本資料,加上從TalkingData收集的原始資料中提取出來的有用資訊,將性別標籤的生產任務轉化成有監督機器學習任務。更具體來說,男/女分別作為1/0標籤(Label,也就是常說的Y值,為了方便表達,我們標記男/女分別為1/0標籤),這樣性別標籤的任務就轉化成了二分類任務。

性別標籤的生產流程圖如下:

  • 簡單來說,輸入為具有可信性別資訊的樣本資料,以及從近期活躍的原始資料中提取出有用特徵;
  • 將兩者join之後,得到可以直接用於建模的資料集;
  • 基於該資料集進行建模,學習出性別預測模型;
  • 再用該模型對全部樣本進行預測,從而得到所有樣本的性別打分。至此,模型部分的工作基本完成;
  • 最後一步是確定閾值,輸出男/女標籤。這裡我們不依賴模型確定閾值,而是藉助比較可信的第三方工具,保證在期望準確度(precision)下,召回儘可能多的樣本。

另外,面對TalkingData十幾億的資料體量,在標籤生產的過程中,為了加速運算,除了必須用單機的情況下,我們都會優先採用Spark分散式來加速運算。

特徵與模型方法的版本迭代

為了優化模型的效果,我們又對該性別標籤預測模型進行了多次迭代。

01性別預測模型V1

模型最初使用的特徵包括4個維度:裝置應用資訊、嵌入SDK的應用包名、嵌入SDK的應用內自定義事件日誌以及裝置機型資訊。

模型採用Xgboost(版本為0.5),基於每個維度的特徵分別訓練模型,得到4個子模型。每個子模型會輸出基於該特徵維度的裝置男/女傾向的打分,分值區間從0到1,分值高代表裝置為男性傾向,反之則為女性傾向。模型程式碼示例如下:

<左右滑動檢視完整程式碼>

   import com.talkingdata.utils.LibSVM
   import ml.dmlc.xgboost4j.scala.DMatrix
   import ml.dmlc.xgboost4j.scala.spark.XGBoost//version 0.5

   //train stage
   val trainRDD = LibSVM.loadLibSVMFile(sc, trainPath)// sc為SparkContext
   val model = XGBoost.train(trainRDD, paramMap, numRound, nWorkers = workers)


   //predict stage
   val testSet = LibSVM.loadLibSVMFilePred(sc,testPath,-1,sc.defaultMinPartitions)
   val pred = testSet.map(_._2).mapPartitions{ iter =>
           model.value.predict(new DMatrix(iter)).map(_.head).toIterator
       }.zip(testSet).map{case(pred, (tdid, feauture)) =>
           s"$tdid\t$pred"
       }

缺點及優化方向:

  • 模型為四個子模型的融合,結構較複雜,執行效率較低,考慮改為使用單一模型;
  • 嵌入SDK的應用內自定義事件日誌特徵覆蓋率低,且ETL處理資源消耗大,需重新評估該欄位對模型的貢獻程度;
  • 發現裝置名稱欄位看上去有男/女區分度——部分使用者群體會以名字或者暱稱命名裝置名(例如帶有“哥”“軍”等欄位的傾向為男性,帶有“妹”“蘭” 等欄位的傾向為女性),驗證效果並考慮是否加入該欄位。

02性別預測模型V2

對模型使用特徵的4個維度進行了調整,改為:嵌入SDK的應用包名、嵌入SDK的應用AppKey、裝置機型資訊以及裝置名稱。

其中,對嵌入SDK的應用包名和裝置名稱做分詞處理。再使用CountVectorizer將以上4類特徵處理成稀疏向量(Vector),同時用ChiSqSelector進行特徵篩選。

模型採用LR(Logistic Regression),程式碼示例如下:

<左右滑動檢視完整程式碼>

   import org.apache.spark.ml.feature.VectorAssembler
   import org.apache.spark.ml.PipelineModel
   import org.apache.spark.ml.classification.LogisticRegression

   val transformedDF = spark.read.parquet("/traindata/path")//分詞、CountVectorizer、ChiSqSelector操作之後的特徵,為vector列

   val featureCols = Array("packageName","appKey", "model", "deviceName")                  
   val vectorizer = new VectorAssembler().
                     setInputCols(featureCols).
                     setOutputCol("features")
   val lr = new LogisticRegression()
   val pipeline = new Pipeline().setStages(Array(vectorizer, lr))
   val model = pipeline.fit(transformedDF)

   //predict stage
   val transformedPredictionDF = spark.read.parquet("/predictData/path")//同train一致,為分詞、CountVectorizer、ChiSqSelector處理之後的特徵,為vector列
   val predictions = model.transform(transformedPredictionDF)

優點及提升效果:

  • 採用單一的模型,能夠用常見的模型評估指標(比如ROC-AUC, Precision-Recall 等)衡量模型,並在後續的版本迭代中作為baseline,方便從模型角度進行版本提升的比較。

缺點及優化方向:

  • LR模型較簡單,學習能力有限,後續還是替換成更強大的模型,比如Xgboost模型。

03性別預測模型V3

模型所使用的特徵,除了上個版本包括的4個維度:嵌入SDK的應用包名、嵌入SDK的應用AppKey、裝置機型資訊以及裝置名稱,又增加了近期的聚合後的裝置應用資訊,處理方式與上個版本類似,不再贅述。

模型從LR更換成Xgboost(版本為0.82),程式碼示例如下:

<左右滑動檢視完整程式碼>

   import org.apache.spark.ml.feature.VectorAssembler
   import ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier//version 為0.82

   val transformedDF = spark.read.parquet("/trainData/path")//分詞、CountVectorizer操作之後的特徵,為vector列

   val featureCols = Array("packageName","appKey", "model", "deviceName")                  
   val vectorizer = new VectorAssembler().
                     setInputCols(featureCols).
                     setOutputCol("features")
   val assembledDF = vectorizer.transform(transformedDF)

   //traiin stage
   //xgboost parameters setting
   val xgbParam = Map("eta" -> xxx,
      "max_depth" -> xxx,
      "objective" -> "binary:logistic",
      "num_round" -> xxx,
      "num_workers" -> xxx)
   val xgbClassifier = new XGBoostClassifier(xgbParam).
       setFeaturesCol("features").
       setLabelCol("labelColname")

   model = xgbClassifier.fit(assembledDF)

   //predict stage
   val transformedPredictionDF = spark.read.parquet("/predictData/path")//同train一致,為分詞、CountVectorizer操作之後的特徵,為vector列
   val assembledpredicDF = vectorizer.transform(transformedPredictionDF)
   val predictions = model.transform(assembledpredicDF)

優點及提升效果:

  • 相比上個版本,AUC提升了6.5%,在最終的性別標籤生產中召回率提升了26%。考慮到TalkingData的十幾億的資料體量,這個數值還是很可觀的。

04性別預測模型V4

除了上個版本包括的5個特徵維度,還新增了TalkingData自有的三個廣告類別維度的特徵,雖然廣告類別特徵覆蓋率僅佔20%,但對最終標籤的召回率的提升也有著很大的影響。

模型由Xgboost替換成DNN,設定最大訓練輪數(Epoch)為40,同時設定了early stopping引數。考慮到神經網路能工作是基於大資料的,因此我們將用於訓練的樣本量擴充了一倍,保證神經網路的學習。

DNN的結構如下:

<左右滑動檢視完整程式碼>

python
   GenderNet_VLen(
     (embeddings_appKey): Embedding(xxx, 64, padding_idx=0)
     (embeddings_packageName): Embedding(xxx, 32, padding_idx=0)
     (embeddings_model): Embedding(xxx, 32, padding_idx=0)
     (embeddings_app): Embedding(xxx, 512, padding_idx=0)
     (embeddings_deviceName): Embedding(xxx, 32, padding_idx=0)
     (embeddings_adt1): Embedding(xxx, 16, padding_idx=0)
     (embeddings_adt2): Embedding(xxx, 16, padding_idx=0)
     (embeddings_adt3): Embedding(xxx, 16, padding_idx=0)
     (fc): Sequential(
       (0): Linear(in_features=720, out_features=64, bias=True)
       (1): BatchNorm1d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
       (2): ReLU()
       (3): Dropout(p=0.6)
       (4): Linear(in_features=64, out_features=32, bias=True)
       (5): BatchNorm1d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
       (6): ReLU()
       (7): Dropout(p=0.6)
       (8): Linear(in_features=32, out_features=16, bias=True)
       (9): BatchNorm1d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
       (10): ReLU()
       (11): Dropout(p=0.6)
       (12): Linear(in_features=16, out_features=2, bias=True)
     )
   )

優點及提升效果:

  • 與上個版本對比,AUC僅提升了1.5%,但在最終性別標籤生產中的召回率提升了13%,考慮資料體量以及現有的標籤體量,這個提升還是不錯的。
    由此可以看出,在驗證版本迭代效果的時候,我們不應該僅僅從模型的AUC這單一指標來衡量,因為這對版本迭代的效果提升程度衡量不夠準確。我們應該驗證最終的、真正的指標提升情況——在性別標籤預測中,是期望準確度(precision)下召回的樣本數量。但我們仍然可以在版本優化時使用AUC等模型相關指標,來快速驗證控制變數的實驗效果,畢竟這些指標容易計算。

模型探索小建議

從原始日誌當中抽取欄位聚合成資訊,需要經過很多步ETL,也會涉及很多優化方式,這部分有專門的ETL團隊負責,在這裡不做過多介紹。

模型團隊可以直接使用按時間聚合之後的欄位進行建模任務,儘管如此,ETL和特徵生成所花費的時間,也佔據了模型優化和迭代的大部分時間。

下面總結兩個優化方面的坑和解決經驗,希望能給大家一些參考。

1. 對於性別標籤預測,輸入的特徵大部分為Array型別,比如近期採集到的裝置應用資訊。對於這種型別的欄位,在訓練模型之前,我們一般會呼叫CountVectorizer將Array轉成Vector,然後再作為模型的輸入,但是CountVectorizer這一步非常耗時,這導致我們在版本迭代時不能快速實驗。

針對該問題,我們可以事先完成這一步轉換,然後將生成的Vector列也儲存下來,這樣在每次實驗時,就可以節省CountVectorizer消耗的時間。

在實際生產中,因為有很多標籤的生產都會用到同樣的欄位,事先將Array轉成Vector儲存下來,後續不同任務即可直接呼叫Vector列,節省了很多時間。

2.雖然第一條能夠節省不少時間,但Spark還是更多用於生產。其實在模型前期的探索當中,我們也可以先用Spark生成訓練集——因為真實樣本通常不會很多,生成的訓練集往往不是很大,這時我們就可以用單機來進行快速實驗了。

在單機上,我們可以使用Python更方便的畫圖來更直觀的認識資料,更快的進行特徵篩選,更快的驗證想法。在對資料、對模型有了深入的瞭解之後,我們就可以把實驗所得的結論快速應用到生產當中。

作者簡介:張小豔,TalkingData資料科學家,目前負責企業級使用者畫像平臺的搭建以及高效營銷投放演算法的研發,長期關注網際網路廣告、使用者畫像、欺詐檢測等領域。

相關文章