淺談內容推薦在社群類產品中的落地方式

Miosama發表於2018-02-01

按:做社群產品,內容推薦是一個繞不開的話題。傳統論壇按版塊分發內容的模式具有被動、低效等侷限性,已不再適合如今快節奏的閱讀模式,使用者不再有大量的時間「沙裡淘金」,因此基於內容的推薦模式被越來越多地應用到內容社群產品中。本文依據前人對內容推薦的研究,綜合自身實踐,簡要討論內容推薦的一些落地方式。


什麼是內容推薦

內容推薦是「基於內容本身的推薦」,即將內容進行分析後建立特徵,然後依據這些特徵給使用者進行推薦,這種特徵往往用「標籤」來定義。標籤在整個內容推薦體系中具有很重要的作用。那麼如何進行標籤的制定,即所謂「打標籤」呢?

內容標籤

1. 使用者自行打標籤 使用者自行打標籤有兩種方式:一是使用者在平臺預設標籤下生產的內容會自動打上對應標籤,二是平臺允許使用者自行新增一些標籤。後一種方式可能由於使用者對內容把握不足,或惡意操作,導致大量冗餘標籤或噪音標籤產生,不利於後期維護。 2. 機器自動打標籤 使用機器進行打標籤,有一定的開發成本。一般可以結合分詞技術和 TF-IDF 來提取關鍵詞作為標籤。這裡需要注意的一點是,這種打標籤的方式對文字的依賴度較高,如果社群內容為音訊、視訊等多媒體內容,這種方式僅能作用於內容的標題,因此可能會受一些「標題黨」的干擾,但總體打標籤效率比較高。 3. 運營人工打標籤 運營人工打標籤是一種最笨,但也是最有效的方法。通過運營人工干預,可以對內容標籤進行復核,使標籤和內容匹配度更高;同時通過運營介入,可以人工設定關聯標籤,將關聯標籤進行聚類處理。

因此,一般的做法是,使用者在某一預設標籤下生產內容,由機器進行自動打標籤後,運營進行人工標籤複審。

使用者標籤

除了內容標籤外,如果想做到更精細化的推薦,還需要給使用者進行「特徵化分析」,也就是給使用者也打上標籤。使用者和內容的互動,如點選、瀏覽、點贊、收藏等,都可以作為給使用者打標籤的基礎。 使用者打標籤的過程需要注意兩點,一是由於熱門內容會干預使用者的標籤,因此對於熱門內容的標籤,需要做降權處理;二是使用者的興趣會隨著時間衰減或發生變化,這時需要對使用者的標籤進行清洗,可以給內容增加「不感興趣」的選項,使用者觸發後則對此標籤做降權處理。


冷啟動

每個內容平臺在初期都會遇到這樣一個問題:巧婦難為無米之炊。新平臺總會遇到,要麼使用者行為或偏好資料過少,要麼內容數量不足的情況。這時候應該如何進行內容的推薦呢?

  • 使用者首次使用時,可以引導使用者進行所感興趣的標籤選擇,然後將該標籤下的熱門內容推薦給使用者;若使用者不選擇標籤,則可以採取全站熱門推薦或人工篩選推薦,將平臺中絕大部分使用者關心的內容進行推薦
  • 如果平臺中新內容較多時,可以在推薦時選取部分新內容進行推薦,每通過推薦增加一次閱讀,傳播度 +1,若起傳播度高於某一預設的閾值時,可以認為該新內容值得推薦,更多進行曝光。這種方式可以解決新內容的冷啟動,也可以增加新內容的曝光量。

推薦方式

首先預設一個推薦的目標:將較新的、優質的、使用者可能感興趣的內容推薦給使用者,會涉及到以下三個維度:

  • 新(timescore) —— 反映內容的實時性(使用者無關)
  • 優(qualityscore) —— 反映內容的質量(使用者無關)
  • 興趣(interestscore) —— 使用者的個性化需求(使用者相關)

關鍵節點

  1. 計算時間衰減得分:時間越新,得分越高。參考函式:1/log(a*x+10, 10),其中 x 為發表日期與當前日期的時間差,a 為常量。
  2. 計算內容質量得分:綜合內容的閱讀、點贊、收藏等維度計算得出。參考函式:sum(c/(1+exp(-(x-a)/b))),其中 x 為影響因素的數值,a 為該因素的均值,c 為影響因素的權重,b 為常量。
  3. 計算影響使用者興趣的因素
  4. 去重:已推薦給使用者的內容應從推薦列表中移除。
  5. 控制數量:一次推薦給使用者的數量不宜過多,可從某一數量開始逐漸遞增或遞減。
  6. 控制邊界:在極端情況下,會出現完全無內容推薦或推薦內容被消費完全,這種情況下應允許不進行推薦,而按照時間維度展示所有使用者關注標籤的內容。
    一般推薦路徑

其他注意點

1. 時效性內容 對於與時間強相關的內容,例如新聞或突發事件等,需要與普通的推薦內容區分開,做單獨的推薦通道。

2. 內容排序 受順序效應影響,在推薦時應注意推薦內容的排序,和使用者最相關、質量最高的內容應排在頂部。通常在有使用者資訊的情況下,可以將推薦出的內容按和使用者相關度進行排序;若沒有使用者資訊時,則可單獨依據內容本身的質量進行排序。

3. 長尾內容 平臺裡一般都會存在一些長尾內容,這部分如果不進行推薦,則很難觸達使用者。針對長尾內容,可以在一定維度進行統一提取後,當做新內容重新進行推薦,但需注意時效性內容不適合使用此方法。

相關文章