資料集簡介

Pursuitzhan發表於2020-10-09

簡介

本文主要介紹常見的幾個資料集,包括

Retailrocket推薦系統資料集

  • 簡介
    資料集由三個檔案組成:一個包含行為資料的檔案(events.csv),一個具有專案屬性的檔案(item_properties.сsv)和一個描述類別樹的檔案(category_tree.сsv)。資料是從真實世界的電子商務網站收集的。它是原始資料,即沒有任何內容轉換,但是,由於機密問題,所有值都被雜湊化。釋出的目的是激發具有隱式反饋的推薦系統領域的研究。
    我是資料集連結 獲取資料集點我!

  • 資料集內容
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述在這裡插入圖片描述

  • 內容 (events.csv)
    這些行為資料包括點選,新增到購物車、交易等事件。訪問者可以建立三種型別的事件,即“檢視”、“新增購物車”或“交易”。
    一共有275 6101個事件,其中包括266 4312次檢視,6 9332次新增到購物車,還有2 2457次交易,這些資料由140 7580個不同的訪問者產生。大約90%的事件對應的屬性可以在“item_properties”中找到。

  • For example:
    “1439694000000,1,view,100,” means visitorId = 1, clicked the item with id = 100 at 1439694000000 (Unix timestamp)
    “1439694000000,2,transaction,1000,234” means visitorId = 2 purchased the item with id = 1000 in transaction with id = 234 at 1439694000000 (Unix timestamp)

  • 對於item_properties.csv檔案
    這是一個包含商品屬性的檔案,包括20 275 902行,即不同的屬性,描述了417 053個唯一專案。由於檔案大小的限制,檔案分為2個檔案。
    由於專案的屬性可以隨時間變化(例如,價格隨時間而變化),因此檔案中的每一行都有相應的時間戳。
    但是,如果專案的屬性在觀察期間內保持不變,則檔案中將僅存在一個快照值,例如:原始資料如下
    在這裡插入圖片描述
    合併之後如下:
    在這裡插入圖片描述
    可以看出,對於只有時間不同而其他值全相同的記錄,只保留了第一條資料記錄。

  • 對於 category_tree .csv
    類別樹檔案有1669行。檔案中的每一行都指定一個子類別ID和相應的父類別


filmtrust資料集

FilmTrust是2011年6月從整個FilmTrust網站上抓取的一個小型資料集。
1. rating.txt:35497個專案評分,格式:userId,movieId,movieRating
2. trust.txt:1853年定向信任評級,格式:trustorId,trusteeId,trustRating
獲取資料集點這裡!
獲得相關論文點這裡!


動漫推薦資料庫

該資料集包含有關來自12,294動漫的73,516個使用者的使用者偏好資料的資訊。每個使用者都可以將動漫新增到他們的完整列表中併為其指定一個評分,並且該資料集是這些評分的彙總。
獲取資料集點這裡!

  • 內容
  1. Anime.csv
    anime_id:標識動漫的唯一ID。
    name -動漫的全名。
    genre -動漫的標籤,用逗號隔開
    type -電影,TV,OVA等
    episodes -該節目中有多少集。(如果是電影則為1)。
    rating -該動畫的平均評分(滿分10分)。
    members -此動漫的“組”中的社群成員數。
  2. Rating.csv
    user_id -無法識別的隨機生成的使用者ID。
    anime_id-該使用者已評分的動漫。
    rating -該使用者已指定的評分(滿分10分)(如果觀看了該評分但未分配評分,則為-1)。
    在這裡插入圖片描述在這裡插入圖片描述

Steam Video Games

該資料集是使用者行為的列表,其列為:使用者ID,遊戲標題,行為名稱,值。包括的行為是“購買”和“玩耍”。該值表示行為的執行程度-在“購買”的情況下,該值始終為1;在“玩遊戲”的情況下,該值表示使用者玩遊戲的小時數。
在這裡插入圖片描述

Netflix獎項資料集

Netflix資料集包含了1999.12.31-2005.12.31期間匿名客戶提供的超過一億部電影平級。這個資料集大約給出了480189個使用者和17770部電影評級。
training set的評分數量為100480507。probe set是training set的子集,包含1408395個評分。Netflix大賽的目標是預測qualifying set。
我是資料集下載網址
我是資料集詳解部落格網址

  • 包含的檔案
  1. movie_titles.txt 包含電影的資訊,格式是:Movie ID,Year Of Release,標題
    注:
    MovieID的順序範圍為1到17770。
    CustomerID範圍從1到2649429。 有480189位使用者。
    評級為1到5的五星級(整數)。
    日期的格式為YYYY-MM-DD。

     	例如:
     		1,2003,Dinosaur Planet
     	    2,2004,Isle of Man TT 2004 Review
    
  2. training_set 訓練集,

     格式是:
    		MovieID:
    		CustomerID1,評級,日期    
    		CustomerID2,評級,日期...
    
    	例如:
    		1:
    		1488844,3,2005-09-06
    		822109,5,2005-05-13
    		885013,4,2005-10-19
    		30878,4,2005-12-26
    		823519,3,2004-05-03
    		893988,3,2005-11-17
    		124105,4,2004-08-05
    
  3. probe set(探測集)
    格式如下:

     MovieID1:
     	CustomerID11
     	CustomerID12
     	…
     	MovieID2:
     	CustomerID21
     	CustomerID22
    
  4. qualifying_data(測試集)
    格式如下:

     MovieID1:
     	CustomerID11,Date11
     	CustomerID12,Date12
     	…
     	MovieID2:
     	CustomerID21,Date21
     	CustomerID22,Date22
    

參賽者需根據訓練集中的資訊來預測客戶在測試集中為電影提供的所有評級。提交的預測檔案的格式遵循電影ID、客戶ID和日期順序

相關文章