19期推薦系統實踐學習(二)
在進行資料分類、推薦之前,首先需要了解資料的基本情況,進而採用不同的方法對資料進行特徵提取,因此需要進行資料分析。
資料分析
資料分析的價值主要在於熟悉瞭解整個資料集的基本情況包括每個檔案裡有哪些資料,具體的檔案中的每個欄位表示什麼實際含義,以及資料集中特徵之間的相關性,在推薦場景下主要就是分析使用者本身的基本屬性,文章基本屬性,以及使用者和文章互動的一些分佈,這些都有利於後面的召回策略的選擇,以及特徵工程。
當特徵工程和模型調參已經很難繼續上分了,可以回來在重新從新的角度去分析這些資料,或許可以找到上分的靈感。
下圖是一些資料特徵的分佈圖
下圖是文章主題的直方圖:
下圖是使用者點選的新聞型別的偏好:
總結
通過資料分析的過程, 我們目前可以得到以下幾點重要的資訊, 這個對於我們進行後面的特徵製作和分析非常有幫助:
- 訓練集和測試集的使用者id沒有重複,也就是測試集裡面的使用者沒有模型是沒有見過的 訓練集中使用者最少的點選文章數是2
- 而測試集裡面使用者最少的點選文章數是1 使用者對於文章存在重複點選的情況, 但這個都存在於訓練集裡面
- 同一使用者的點選環境存在不唯一的情況,後面做這部分特徵的時候可以採用統計特徵
- 使用者點選文章的次數有很大的區分度,後面可以根據這個製作衡量使用者活躍度的特徵
- 文章被使用者點選的次數也有很大的區分度,後面可以根據這個製作衡量文章熱度的特徵
- 使用者看的新聞,相關性是比較強的,所以往往我們判斷使用者是否對某篇文章感興趣的時候, 在很大程度上會和他歷史點選過的文章有關
- 使用者點選的文章字數有比較大的區別, 這個可以反映使用者對於文章字數的區別 使用者點選過的文章主題也有很大的區別, 這個可以反映使用者的主題偏好
- 不同使用者點選文章的時間差也會有所區別, 這個可以反映使用者對於文章時效性的偏好 所以根據上面的一些分析,可以更好的幫助我們後面做好特徵工程, 充分挖掘資料的隱含資訊。
相關文章
- 推薦系統實踐學習系列(三)推薦系統冷啟動問題
- Spark推薦系統實踐Spark
- 《推薦系統實踐》筆記 01 推薦系統簡介筆記
- 《推薦系統學習》之推薦系統那點事
- 關於《推薦系統實踐》
- 實時增量學習在雲音樂直播推薦系統中的實踐
- 推薦系統實踐自我評價
- 實時增量學習在雲音樂直播推薦系統中的工程實踐
- 浪潮之巔作者吳軍推薦序——《推薦系統實踐》
- 我的推薦系統學習之路
- Flink + 強化學習 搭建實時推薦系統強化學習
- 個性化推薦系統實踐應用
- 推薦系統實踐 0x11 NeuralCF
- 推薦演算法在商城系統實踐演算法
- 編輯小記之《推薦系統實踐》
- 《推薦系統實踐》關於Latent Factor Model
- 推薦系統 embedding 技術實踐總結
- 推薦系統實踐 0x12 Embedding
- 推薦系統實踐 0x0f AutoRec
- 詳解特徵工程與推薦系統及其實踐特徵工程
- 雲音樂推薦系統(二):推薦系統的核心演算法演算法
- 《推薦系統實踐》樣章:如何利用使用者標籤資料(二)
- [推薦]大量 Blazor 學習資源(二)Blazor
- 推薦系統實踐 0x05 推薦資料集MovieLens及評測
- 58同城智慧推薦系統的演進與實踐
- 推薦系統實踐 0x0c FM系列
- 推薦系統實踐 0x10 Deep CrossingROS
- 《推薦系統實踐》筆記 03 評測指標筆記指標
- 推薦系統基礎知識(二)
- 推薦系統實踐 0x0e LS-PLM
- 推薦系統實踐 0x0b 矩陣分解矩陣
- 推薦系統實踐 0x13 Word2Vec
- 美團綜合業務推薦系統的質量模型及實踐模型
- 用深度學習打造自己的音樂推薦系統深度學習
- 推薦系統
- 分期商城實時推薦系統
- 從實踐中學習Oracle DBA-學習筆記 第二期(第二版)Oracle筆記
- 美團深度學習系統的工程實踐深度學習