不到40行 Python 程式碼打造一個簡單的推薦系統

U2FsdGVkX1x發表於2019-04-16

原文網址 : https://juejin.im/post/5cb53b64f265da03540300c6

Python

什麼是推薦系統

維基百科這樣解釋道：推薦系統屬於資訊過濾的一種應用。推薦系統能夠將可能受喜好的資訊或實物（例如：電影、電視節目、音樂、書籍、新聞、圖片、網頁）推薦給使用者。

本質上是根據使用者的一些行為資料有針對性的推薦使用者更可能感興趣的內容。比如在網易雲音樂聽歌，聽得越多，它就會推薦越多符合你喜好的音樂。

推薦系統是如何工作的呢？有一種思路如下：

使用者 A 聽了收藏了 a,b,c 三首歌。使用者 B 收藏了 a, b 兩首歌，這時候推薦系統就把 c 推薦給使用者 B。因為演算法判斷使用者 A，B 對音樂的品味有極大可能一致。

動手打造自己的推薦系統

這一次我們要做的是一個簡單的電影推薦，雖然離工業應用還差十萬八千里，但是非常適合新手一窺推薦系統的內部原理。資料集包含兩個檔案：ratings.csv 和 movies.csv。

# 載入資料
import pandas as pd
import numpy as np
df = pd.read_csv('data/ratings.csv')
df.head()
複製程式碼

ratings.csv 包含四個維度的資料：

userId:打分使用者的 ID
movieId: 被打分電影的 ID
rating: 使用者給電影的打分，處於[1，5]
timestamp: 電影被打分的時間

要推薦電影還需要有電影的名字，電影名字儲存在 movies.csv 中：

movies = pd.read_csv('data/movies.csv')
movies.head()
複製程式碼

將 ratings.csv 和 movies.csv 的資料根據 movieId 合併。

df = pd.merge(df, movie_title, on='movieId')
df.head()
複製程式碼

我們這次要做的推薦系統的核心思路是：

根據所有使用者評分判斷所有電影與使用者 a 已觀看的某部電影 A 的相似度
給使用者 a 推薦相似度高且評分高的電影

所以我們要先有所有使用者對所有電影的評分的列聯表：

movie_matrix = df.pivot_table(index = 'userId', columns = 'title' ,values = 'rating')
movie_matrix.head()
複製程式碼

假設使用者 A 觀看的電影是 air_force_one (1997)，則計算列聯表中所有電影與 air_force_one (1997) 的相關性。

AFO_user_rating = movie_matrix['Air Force One (1997)']
simliar_to_air_force_one = movie_matrix.corrwith(AFO_user_rating)
複製程式碼

這樣我們就得到了所有電影與 air_force_one （1997）的相關性。

但是，直接對這個相關性進行排序並推薦最相關的電影有一個及其嚴重的問題：

ratings = pd.DataFrame(df.groupby('title')['rating'].mean())#計算電影平均得分
ratings['number_of_ratings'] = df.groupby('title')['rating'].count()
import matplotlib.pyplot as plt
%matplotlib inline
ratings['number_of_ratings'].hist(bins = 60);
複製程式碼

上圖是電影被評分次數的直方圖，可以看到大量的電影評分次數不足10次。評分次數太少的電影很容易就被判斷為高相關性。所以我們要將這部分的評分刪掉。

corr_AFO = pd.DataFrame(similar_to_air_force_one, columns = ['Correlation'])
corr_AFO.dropna(inplace = True)
corr_contact = corr_contact.join(ratings['number_of_ratings'],how = 'left',lsuffix='_left', rsuffix='_right')
corr_AFO[corr_AFO['number_of_ratings']>100].sort_values(by = 'Correlation',ascending = False).head()
複製程式碼

這樣我們就得到了一個與 air_force_one (1997) 高相關的電影列表。但是高相關有可能評分低（概率低），再從列表裡挑幾部平均得分高的電影推薦就好了。

叮～叮～叮～

上文的資料集和完整程式碼我放到微信公眾號「資料科學與技術」(read_csv) 了，回覆「推薦」就好啦。

PS.掘金應該出一個檔案暫存頁面，資料科學領域的資料集太重要了?

[譯] 使用 Pandas 在 Python 中建立一個簡單的推薦系統
2018-11-12
Python
如何設計一個最簡化的推薦系統
2023-03-17
史上最簡單的推薦系統設計
2019-05-11
10 個推薦的 Python 程式碼習慣
2020-03-17
Python
python 推薦系統
2022-02-28
Python
推薦一個可以讓 go 程式跨平臺簡單部署的包
2020-08-14
Go
推薦一套簡單好用的免費OA辦公系統
2021-12-29
《推薦系統實踐》筆記 01 推薦系統簡介
2020-11-22
筆記
不到150行程式碼，寫一個簡單的Flutter狀態管理元件
2020-05-26
行程Flutter元件
一個簡簡單單的紅點系統框架
2021-09-12
框架
基於深度學習的圖書管理推薦系統（附python程式碼）
2024-03-31
深度學習Python
推薦一款管理系統專用低程式碼工具，一天開發一個系統不是夢！
2022-05-13
推薦一個清單工具
2018-08-14
基於Apriori關聯規則的電影推薦系統(附python程式碼)
2024-03-31
Python
python酒店相似度推薦系統
2024-03-10
Python
網易雲音樂推薦系統簡單實現系列
2019-03-04
用深度學習打造自己的音樂推薦系統
2018-11-02
深度學習
推薦系統一——深入理解YouTube推薦系統演算法
2020-10-11
演算法
推薦5個我常用的軟體，簡單高效
2024-01-30
設計一個簡單的devops系統
2022-03-31
dev
程式碼來構建一個簡單的compiler
2018-08-08
Compile
寫一個簡單的程式碼生成器
2021-06-24
Python使用Socket寫一個簡單聊天程式
2018-04-24
Python
使用Java帶你打造一款簡單的外賣系統
2020-07-17
Java
【推薦系統篇】--推薦系統之訓練模型
2018-03-26
模型
系統單據號生成規則推薦
2018-12-31
推薦一個excel 輪子-極簡用法
2021-09-08
Excel
Mahout的taste推薦系統引擎（影片推薦案例）
2024-04-04
AST
【推薦演算法】推薦系統的評估
2024-12-03
演算法
低程式碼軟體簡介及推薦列表
2023-09-20
【推薦系統篇】--推薦系統之測試資料
2018-03-27
一個簡單的區塊鏈程式碼實現
2022-07-19
區塊鏈
雲音樂推薦系統（二）：推薦系統的核心演算法
2020-11-11
演算法
一個簡單的完整人臉識別系統
2022-12-14
使用簡單的Java程式碼實現酒店管理系統
2021-01-04
Java
一些程式碼寫法推薦
2020-11-28
推薦系統概述
2018-10-31
推薦一份質量不錯的Python書單
2021-03-27
Python

不到40行 Python 程式碼打造一個簡單的推薦系統

什麼是推薦系統

推薦演算法分類

動手打造自己的推薦系統

叮～叮～叮～

相關文章