推薦系統之冷啟動問題

傲海發表於2018-12-13
前言

冷啟動問題同比於啟動車輛,通常車正式開啟之前需要有熱車階段,這個過程就是冷啟動過程。冷啟動在推薦系統也是常見的問題,大家知道類似於抖音、淘寶等工具,都會根據使用者的興趣去推薦內容,如果一個新使用者進來,系統完全不清楚他的興趣,該如何推薦呢?這就是本文要給大家介紹的內容。

冷啟動對於一個推薦系統是至關重要的,因為新使用者最初使用APP階段也是這名使用者最可能解除安裝APP的時候,如果新使用者進入產品不能快速給使用者帶來價值,是非常危險的。今天介紹的內容會圍繞下面這張圖展開:

螢幕快照 2018-12-13 下午3.31.30.png

首先把冷啟動問題歸為3個類別:

  1. 系統冷啟動:整個系統都是新做的,沒有任何資料和經驗基礎

  2. 推薦主體冷啟動:通常指的是缺少新註冊使用者的歷史購買或點選資料

  3. 被推薦物件冷啟動:通常指的是缺少商城中的新商品或者新的內容歷史被點選或購買的資料

下面分別針對以上內容講下處理方法。


1. 系統冷啟動

1.jpeg

系統冷啟動這個其實真的沒太好的辦法,萬事開頭難,系統冷啟動缺少的是專家經驗,建議系統在執行前務必請有經驗的架構師或者產品經理參與設計,如果架構或者整個推薦策略不合理,上線後是比較難調整的。


2.推薦主體冷啟動

當推薦主體冷啟動時,往往是新使用者進來之後,大方向上要從兩個角度去想解決方案,一個方向是儘可能擴充套件使用者畫像,增加更多維度的資訊。第二個方向在初期推薦的內容上也要有所策略。

2.1 擴充使用者畫像

79e1740dd0808063f797ed1a115332e9.png

使用者畫像的擴充有很多手段,常用的方法如下:

  • 賬號註冊資訊:註冊的時候可以讓使用者填寫年齡、性別等內容、手機號等內容,同時也可以通過LBS資訊瞭解使用者的活動區域。針對這些資訊可以給使用者興趣做一個初步判斷,比如年輕的都市女性,往往有較高的消費能力,在推薦策略上可以推薦高規格的一些內容

  • 身份證資訊:現在很多系統都需要實名認證,身份證號其實可以帶來很多有用的資訊,比如前兩位是省級程式碼,34位是市級程式碼,7-14位是生日程式碼,第17位是性別程式碼(奇數代表男性、偶數代表女性)

  • 社交賬號登入:如果系統可以設計成支援淘寶、微信等賬號登入,也可以通過這些系統拿到部分使用者畫像資訊

  • 預採集:現在很多APP,當使用者初次進入都有一個興趣愛好勾選的按鈕,這個就是為了解決冷啟動的一個手段,在推薦之前先通過使用者標記獲取使用者資訊

  • 資料交換:註冊的時候其實可以拿到使用者的手機號碼,現在有很多賣資料的公司都提供使用者畫像資料的交易,只要提供手機號就能獲取特別全的使用者資料(這個貌似是個黑產業)

2.2 推薦策略

對於這種冷啟動問題推薦策略有兩個方向可以選擇,可以結合著來使用。

  • 熱門推薦法:反正也不清楚使用者的資訊,就挑平臺上最熱門的內容推薦,總歸從概率層面上被大多受眾認可的東西也有大概率被新使用者認可

  • 老虎機演算法:學名叫Bandit演算法,意思是假設使用者前方有10個老虎機,每個都有不同的概率出錢,使用者不知道這個概率,那使用者該怎麼選呢,就是懵!落到冷啟動問題上,就是先隨便推薦使用者幾個不同Topic的內容(一定是不同的),看看使用者的反饋再決定下一步的推薦安排


3. 被推薦物件冷啟動

1.png

被推薦物件往往是平臺上新增加的內容,不同於推薦主體,被推薦物件如商品、短視訊、廣告等,平臺是有辦法通過一些分析拿到內容屬性的。可以通過以下兩個步驟建立推薦推薦策略:

  1. 挖掘屬性:先對新增內容屬性進行挖掘,比如增加的是個手機,可以通過標籤獲取手機價格、顏色等資訊,再進行下一步推薦

  2. ICF聚類:在之前推薦系統相關的文章中已經多次介紹過協同過濾演算法,本質上是先將內容分類。比如新增加的是一個美女跳舞的視訊,那麼再找哪些使用者瀏覽過類似的視訊,就把新增視訊推薦給對應的使用者,這種策略本質上是一種聚類演算法。比如新增內容是個紅色的手機,就找到歷史上購買過紅色手機的使用者來推薦


文末,全文針對冷啟動問題的不同細節介紹了具體的一些實踐路徑。具體如何把其中的細節實現其實對推薦系統有很高的架構要求,比如被推薦物件冷啟動問題,每當新來一個商品就需要快速的做協同過濾找到商品所屬類別,這其實要依賴一個流式的計算引擎才可以實現。ok,關於架構的事情之前已經寫過一些,過一段會有一個總結。感謝觀看,希望能有收穫~


相關文章