19期推薦系統實踐學習(二)

shiwy發表於2020-11-27

在進行資料分類、推薦之前,首先需要了解資料的基本情況,進而採用不同的方法對資料進行特徵提取,因此需要進行資料分析。

資料分析
資料分析的價值主要在於熟悉瞭解整個資料集的基本情況包括每個檔案裡有哪些資料,具體的檔案中的每個欄位表示什麼實際含義,以及資料集中特徵之間的相關性,在推薦場景下主要就是分析使用者本身的基本屬性,文章基本屬性,以及使用者和文章互動的一些分佈,這些都有利於後面的召回策略的選擇,以及特徵工程。

當特徵工程和模型調參已經很難繼續上分了,可以回來在重新從新的角度去分析這些資料,或許可以找到上分的靈感。

下圖是一些資料特徵的分佈圖
在這裡插入圖片描述
下圖是文章主題的直方圖:
在這裡插入圖片描述
下圖是使用者點選的新聞型別的偏好:
在這裡插入圖片描述
總結
通過資料分析的過程, 我們目前可以得到以下幾點重要的資訊, 這個對於我們進行後面的特徵製作和分析非常有幫助:

  • 訓練集和測試集的使用者id沒有重複,也就是測試集裡面的使用者沒有模型是沒有見過的 訓練集中使用者最少的點選文章數是2
  • 而測試集裡面使用者最少的點選文章數是1 使用者對於文章存在重複點選的情況, 但這個都存在於訓練集裡面
  • 同一使用者的點選環境存在不唯一的情況,後面做這部分特徵的時候可以採用統計特徵
  • 使用者點選文章的次數有很大的區分度,後面可以根據這個製作衡量使用者活躍度的特徵
  • 文章被使用者點選的次數也有很大的區分度,後面可以根據這個製作衡量文章熱度的特徵
  • 使用者看的新聞,相關性是比較強的,所以往往我們判斷使用者是否對某篇文章感興趣的時候, 在很大程度上會和他歷史點選過的文章有關
  • 使用者點選的文章字數有比較大的區別, 這個可以反映使用者對於文章字數的區別 使用者點選過的文章主題也有很大的區別, 這個可以反映使用者的主題偏好
  • 不同使用者點選文章的時間差也會有所區別, 這個可以反映使用者對於文章時效性的偏好 所以根據上面的一些分析,可以更好的幫助我們後面做好特徵工程, 充分挖掘資料的隱含資訊。

相關文章