19期推薦系統實踐學習(二)
在進行資料分類、推薦之前,首先需要了解資料的基本情況,進而採用不同的方法對資料進行特徵提取,因此需要進行資料分析。
資料分析
資料分析的價值主要在於熟悉瞭解整個資料集的基本情況包括每個檔案裡有哪些資料,具體的檔案中的每個欄位表示什麼實際含義,以及資料集中特徵之間的相關性,在推薦場景下主要就是分析使用者本身的基本屬性,文章基本屬性,以及使用者和文章互動的一些分佈,這些都有利於後面的召回策略的選擇,以及特徵工程。
當特徵工程和模型調參已經很難繼續上分了,可以回來在重新從新的角度去分析這些資料,或許可以找到上分的靈感。
下圖是一些資料特徵的分佈圖
下圖是文章主題的直方圖:
下圖是使用者點選的新聞型別的偏好:
總結
通過資料分析的過程, 我們目前可以得到以下幾點重要的資訊, 這個對於我們進行後面的特徵製作和分析非常有幫助:
- 訓練集和測試集的使用者id沒有重複,也就是測試集裡面的使用者沒有模型是沒有見過的 訓練集中使用者最少的點選文章數是2
- 而測試集裡面使用者最少的點選文章數是1 使用者對於文章存在重複點選的情況, 但這個都存在於訓練集裡面
- 同一使用者的點選環境存在不唯一的情況,後面做這部分特徵的時候可以採用統計特徵
- 使用者點選文章的次數有很大的區分度,後面可以根據這個製作衡量使用者活躍度的特徵
- 文章被使用者點選的次數也有很大的區分度,後面可以根據這個製作衡量文章熱度的特徵
- 使用者看的新聞,相關性是比較強的,所以往往我們判斷使用者是否對某篇文章感興趣的時候, 在很大程度上會和他歷史點選過的文章有關
- 使用者點選的文章字數有比較大的區別, 這個可以反映使用者對於文章字數的區別 使用者點選過的文章主題也有很大的區別, 這個可以反映使用者的主題偏好
- 不同使用者點選文章的時間差也會有所區別, 這個可以反映使用者對於文章時效性的偏好 所以根據上面的一些分析,可以更好的幫助我們後面做好特徵工程, 充分挖掘資料的隱含資訊。
相關文章
- 推薦系統實踐學習系列(三)推薦系統冷啟動問題
- Spark推薦系統實踐Spark
- 《推薦系統實踐》筆記 01 推薦系統簡介筆記
- 實時增量學習在雲音樂直播推薦系統中的實踐
- 實時增量學習在雲音樂直播推薦系統中的工程實踐
- Flink + 強化學習 搭建實時推薦系統強化學習
- 我的推薦系統學習之路
- 推薦系統 embedding 技術實踐總結
- 個性化推薦系統實踐應用
- 推薦演算法在商城系統實踐演算法
- 推薦系統實踐 0x12 Embedding
- 推薦系統實踐 0x11 NeuralCF
- 《機器學習:演算法原理和程式設計實踐》4:推薦系統原理機器學習演算法程式設計
- 推薦系統實踐 0x10 Deep CrossingROS
- 推薦系統實踐 0x0f AutoRec
- 雲音樂推薦系統(二):推薦系統的核心演算法演算法
- 推薦系統實踐 0x05 推薦資料集MovieLens及評測
- 58同城智慧推薦系統的演進與實踐
- PyCon 2018: SVD推薦系統在Python中的實踐Python
- 推薦系統實踐 0x0c FM系列
- 《推薦系統實踐》筆記 03 評測指標筆記指標
- [推薦]大量 Blazor 學習資源(二)Blazor
- 分散式機器學習框架與高維實時推薦系統分散式機器學習框架
- 推薦系統基礎知識(二)
- RecSysOps:奈飛運維大型推薦系統的最佳實踐運維
- 推薦系統實踐 0x0e LS-PLM
- 推薦系統實踐 0x0b 矩陣分解矩陣
- 推薦系統實踐 0x13 Word2Vec
- 用深度學習打造自己的音樂推薦系統深度學習
- 分期商城實時推薦系統
- 推薦系統實踐 0x0a 冷啟動問題
- 推薦系統實踐 0x09 基於圖的模型模型
- 【推薦系統篇】--推薦系統之訓練模型模型
- 吳恩達機器學習筆記 —— 17 推薦系統吳恩達機器學習筆記
- Linux系統推薦學習的程式語言以及經驗Linux
- Netflix推薦系統(Part Seven)-改善實驗系統
- 【推薦系統篇】--推薦系統之測試資料
- 今日頭條推薦系統架構設計實踐(附下載)架構