chapter3:協同過濾－隱式評級及基於物品的過濾

CopperDong發表於2017-10-04

原文網址 : https://blog.csdn.net/qfire/article/details/78158476

　　　前面提到，有一些證據表明，使用者通常不使用細粒度的區分機制，而是傾向於要不給最高評分要不給最低評分。這種非此即彼的極端評級方式有時可能會導致結果無法使用。本章將考察對協同過濾的調優方法，以便更高效低產生更精確的推薦結果。

　　　顯示評級：指使用者顯示地給出物品的評級結果。如點贊／點差／評分

　　　隱式評級：觀察使用者的行為來獲得結果。如跟蹤使用者在紐約時報線上上的點選軌跡，對某個使用者的點選行為觀察幾周之後，就能夠構建該使用者的合理畫像(profile)，比如，他不喜歡體育新聞但是好像喜歡技術新聞。如果他點選了iPhone的廣告，那麼或許他對該產品感興趣。另一種隱式評級來自使用者實際的購買結果。

一、顯示評級的問題

　　　問題１：使用者大都具有惰性，不願對物品評級

　　　問題２：使用者可能撒謊或者只給出部分資訊

　　　問題３：使用者不會更新其評級結果

　　　隱式評級有哪些問題呢？

　　　　　　可能並不是給自己買，導致使用者畫像很奇怪

二、隱式資料

網頁：　點選指向某個網頁的連結

　　　　瀏覽頁面的時間

　　　　重複的訪問

　　　　將一個網頁指向其他網頁

　　　　在Hulu上觀看的視訊

音樂播放器：　使用者播放的歌曲

　　　　　　　使用者跳過的歌曲

　　　　　　　某首歌曲播放的次數

無論是顯示資料還是隱式資料，第二章介紹的演算法都可以適用

三、成功帶來的問題

　　假設你有１００萬使用者，進行一次推薦時需要計算１００萬次距離計算

　　所以，基於鄰居的推薦系統的最主要缺點是延遲性太差。幸運的是，該問題有辦法解決

　　１、基於使用者的過濾（也稱為基於記憶體的協同過濾）

　　　　有兩個問題：擴充套件性和稀疏性

　　２、基於物品的過濾（基於模型的協同過濾）

　　　　可以計算出最相似的兩件物品

四、調整後的餘弦相似度

　　論文Item-based collaborative filtering recommendation algorithms

(Ru,i - Ru) 指的是使用者ｕ給物品ｉ的評分減去使用者ｕ對所有物品的評分的平均值。S(i, j)指物品ｉ和物品ｊ之間的相似度、

def computeSimilarity(band1, band2, userRatings):
   averages = {}
   for (key, ratings) in userRatings.items():
      averages[key] = (float(sum(ratings.values()))
                      / len(ratings.values()))

   num = 0  # numerator
   dem1 = 0 # first half of denominator
   dem2 = 0
   for (user, ratings) in userRatings.items():
      if band1 in ratings and band2 in ratings:
         avg = averages[user]
         num += (ratings[band1] - avg) * (ratings[band2] - avg)
         dem1 += (ratings[band1] - avg)**2
         dem2 += (ratings[band2] - avg)**2
   return num / (sqrt(dem1) * sqrt(dem2))

我們已經得到了相似度矩陣，如果能夠利用該矩陣進行預測那就太好了（比如，我想知道David有多喜歡Kacey Musgraves?）

p(u, i) 指使用者對物品ｉ的喜歡程度

五、Slope One演算法

另一種流行的基於物品過濾的演算法是Slop One，主要優點是簡潔性，因此它很容易實現

論文Slope One Predictors for online Rating-Based Collaborative Filtering 值得閱讀

可以將Slope One看成兩部分：

　　第一部分，事先計算的部分（批處理模式，可以是半夜或任何時間進行），稱為每對物品之間的偏差(deviation)，可以得到物品偏差構成的資料庫

　　第二部分，利用偏差實際預測，利用加權Slope One演算法進行預測

基於Python的實現

   def computeDeviations(self):
      # for each person in the data:
      #    get their ratings
      for ratings in self.data.values():
         # for each item & rating in that set of ratings:
         for (item, rating) in ratings.items():
            self.frequencies.setdefault(item, {})
            self.deviations.setdefault(item, {})                    
            # for each item2 & rating2 in that set of ratings:
            for (item2, rating2) in ratings.items():
               if item != item2:
                  # add the difference between the ratings to our
                  # computation
                  self.frequencies[item].setdefault(item2, 0)
                  self.deviations[item].setdefault(item2, 0.0)
                  self.frequencies[item][item2] += 1
                  self.deviations[item][item2] += rating - rating2
        
      for (item, ratings) in self.deviations.items():
         for item2 in ratings:
            ratings[item2] /= self.frequencies[item][item2]

   def slopeOneRecommendations(self, userRatings):
      recommendations = {}
      frequencies = {}
      # for every item and rating in the user's recommendations
      for (userItem, userRating) in userRatings.items():
         # for every item in our dataset that the user didn't rate
         for (diffItem, diffRatings) in self.deviations.items():
            if diffItem not in userRatings and \
               userItem in self.deviations[diffItem]:
               freq = self.frequencies[diffItem][userItem]
               recommendations.setdefault(diffItem, 0.0)
               frequencies.setdefault(diffItem, 0)
               # add to the running sum representing the numerator
               # of the formula
               recommendations[diffItem] += (diffRatings[userItem] +
                                             userRating) * freq
               # keep a running sum of the frequency of diffitem
               frequencies[diffItem] += freq
      recommendations =  [(self.convertProductID2name(k),
                           v / frequencies[k])
                          for (k, v) in recommendations.items()]
      # finally sort and return
      recommendations.sort(key=lambda artistTuple: artistTuple[1],
                           reverse = True)
      # I am only going to return the first 50 recommendations
      return recommendations[:50]

六、MovieLens資料集

明尼蘇達大學GroupLens研究專案所收集的MovieLens資料集包含使用者對影片的評分　www.grouplens.org

這裡使用了其中最小規模的資料集ml-100k

>>> import recommender3
>>> r = recommender3.recommender(0)
>>> r.loadMovieLens('ml-100k/')
102625
>>> r.showUserTopItems('1', 50)
When Harry Met Sally... (1989)	5
Jean de Florette (1986)	5
Godfather, The (1972)	5
...
>>> r.computeDeviations()   #在我的筆記本上大概需要３０秒
>>> r.slopeOneRecommendations(r.data['1'])
>>> r.slopeOneRecommendations(r.data['25'])

最後：
１、你可以對MovieLens資料集中的１０部影片進行評級，看看Slope One推薦系統會給你推薦什麼影片？你是否喜歡

２、實現調整的餘弦相似度計算方法，將其效能與Slope One進行比較

３、執行Booking Crossing資料集，dataset有２７萬本書被評分，因此需要一個270000x270000的字典儲存偏差值，這大概需要７３０億個字典條目。對於MovieLens資料集，其字典的稀疏度如何？修改程式碼以便能夠處理更大的資料集

推薦召回--基於物品的協同過濾：ItemCF
2022-01-21
協同過濾筆記
2024-04-07
筆記
基於矩陣分解的協同過濾演算法
2024-04-11
矩陣演算法
協同過濾演算法概述與python 實現協同過濾演算法基於內容（usr-it
2021-09-09
演算法Python
協同過濾的R語言實現及改進
2019-02-22
R語言
【Datawhale】推薦系統-協同過濾
2020-10-22
基於使用者的協同過濾來構建推薦系統
2020-06-25
4、過濾器的使用及自定義過濾器
2024-03-21
過濾器
過濾函式
2020-04-05
函式
[機器學習]協同過濾演算法的原理和基於Spark 例項
2020-12-30
機器學習演算法Spark
協同過濾實現小型推薦系統
2018-11-17
神經圖協同過濾（Neural Graph Collaborative Filtering）
2020-11-25
Filter
基於遺傳最佳化的協同過濾推薦演算法matlab模擬
2024-03-23
演算法Matlab
協同過濾在推薦系統中的應用
2020-10-30
基於JavaScript的關鍵詞過濾示例
2024-11-06
JavaScript
【小白學推薦1】協同過濾零基礎到入門
2020-08-20
基於專案的協同過濾推薦演算法(Item-Based Collaborative Filtering Recommendation Algorithms)
2024-04-07
演算法FilterGo
推薦系統與協同過濾、奇異值分解
2019-03-04
過濾
2024-07-30
推薦系統--完整的架構設計和演算法(協同過濾、隱語義)
2019-09-09
架構演算法
【PAT乙級】1066 影像過濾
2020-11-19
037:函式物件的過濾器
2020-10-24
函式物件過濾器
聚合函式及分組與過濾（GROUP BY … HAVING）
2020-11-01
函式
過濾器
2024-03-07
過濾器
filter過濾
2020-10-20
Filter
過濾Filtering
2020-10-28
Filter
JavaScript評論敏感詞過濾程式碼
2018-12-23
JavaScript
Django（67）drf搜尋過濾和排序過濾
2021-06-21
Django排序
MySQL隱碼攻擊Fuzz過濾字元字典
2020-11-06
MySql字元
誠翔濾器光刻膠過濾器濾芯：保障光刻過程的高效與安全
2023-04-12
過濾器
【JAVA】助力數字化營銷：基於協同過濾演算法實現個性化商品推薦
2024-04-23
Java演算法
CAN過濾器
2018-06-23
過濾器
檢視過濾
2024-05-15
Filter過濾器
2020-10-26
Filter過濾器
vue 過濾器
2020-11-02
Vue過濾器
NetCore過濾器
2019-04-24
NetCore過濾器
代理過濾器
2019-04-22
過濾器
Vue過濾器
2024-09-03
Vue過濾器
winshark 過濾包
2024-09-02