微博推薦演算法簡述

wbrecom發表於2015-11-05

在介紹微博推薦演算法之前,我們先聊一聊推薦系統和推薦演算法。有這樣一些問題:推薦系統適用哪些場景?用來解決什麼問題、具有怎樣的價值?效果如何衡量?

推薦系統誕生很早,但真正被大家所重視,緣起於以”facebook”為代表的社會化網路的興起和以“淘寶“為代表的電商的繁榮,”選擇“的時代已經來臨,資訊和物品的極大豐富,讓使用者如浩瀚宇宙中的小點,無所適從。推薦系統迎來爆發的機會,變得離使用者更近:

  1. 快速更新的資訊,使使用者需要藉助群體的智慧,瞭解當前熱點。
  2. 資訊極度膨脹,帶來了高昂的個性化資訊獲取成本,過濾獲取有用資訊的效率低下。
  3. 很多情況下,使用者的個性化需求很難明確表達,比如“今天晚上需要在附近找一個價效比高、又符合我口味的餐館“。

推薦系統的適用場景還有很多,不再一一列舉;其主要解決的問題是為使用者找到合適的item(連線和排序),並找到一個合理的理由來解釋推薦結果。而問題的解決,就是系統的價值,即建立關聯、促進流動和傳播、加速優勝劣汰。

推薦演算法是實現推薦系統目標的方法和手段。演算法與產品相結合,搭載在高效穩定的架構上,才能發揮它的最大功效。

接下來我們說一下微博推薦,微博本身的產品設計,使得即使沒有推薦系統,仍然會形成一個大的使用者關係網路,實現資訊快速傳播;而衡量一個事物的價值,一個簡單的方法是對比看看保留它和去掉它時的差別。微博需要健康的使用者關係網路,保障使用者feed流的質量,且需要優質資訊快速流動,通過傳播淘汰低質資訊。微博推薦的作用在於加速這一過程,並在特定的情況下控制資訊的流向,所以微博推薦的角色是一個加速器和控制器。

最後回到微博推薦演算法中來,上面扯了那麼多,只是為了讓大家能對微博推薦演算法有更好的理解。我們的工作,是將微博推薦的目標和需要解決的問題,抽樣為一系列的數學問題,然後運用多種資料工具進行求解。

接下來首先用一個圖梳理下我們用到的方法和技術,然後再逐一介紹。

 

基礎及關聯演算法

這一層演算法的主要作用是為微博推薦挖掘必要的基礎資源、解決推薦時的通用技術問題、完成必要的資料分析為推薦業務提供指導。

這一部分中常用的演算法和技術如下:

  • 分詞技術與核心詞提取

是微博內容推薦的基礎,用於將微博內容轉化為結構化向量,包括詞語切分、詞語資訊標註、內容核心詞/實體詞提取、語義依存分析等。

  • 分類與anti-spam

用於微博內容推薦候選的分析,包含微博內容分類和營銷廣告/色情類微博識別;

內容分類採用決策樹分類模型實現,共3級分類體系,148個類別;營銷廣告/色情類微博的識別,採用貝葉斯與最大熵的混合模型。

  • 聚類技術

主要用於熱點話題挖掘,以及為內容相關推薦提供關聯資源。屬於微博自主研發的聚類技術WVT演算法(word vector topic),依據微博內容特點和傳播規律設計。

 

  • 傳播模型與使用者影響力分析

開展微博傳播模型研究和使用者網路影響力分析(包含深度影響力、廣度影響力和領域內影響力)。

 

主要推薦演算法

1. Graph-based 推薦演算法

微博具有這樣的特點:使用者貢獻內容,社會化途徑傳播,帶來資訊的爆炸式傳播。之所以稱作graph-based 推薦演算法,而不是業界通用的memory-based 演算法,主要原因在於:

  • 我們的推薦演算法設計是建立在社交網路之上,核心點在於從社交網路出發,融入資訊傳播模型,綜合利用各類資料,為使用者提供最佳的推薦結果;比如很多時候,我們只是資訊傳播的關鍵環節,加入必要的推薦調控,改變資訊傳播通路,後續的傳播沿著原來的網路自然的傳播。
  • Feed流推薦(我們稱作趨勢),是我們最重要的產品,而結果必須包含使用者關係。

從graph的巨集觀角度看,我們的目標是建立一個具有更高價值的使用者關係網路,促進優質資訊的快速傳播,提升feed流質量;其中的重要工作是關鍵節點挖掘、面向關鍵節點的內容推薦、使用者推薦。

對這部分的演算法做相應的梳理,如下面的表格

演算法 說明 應用舉例
User-based  CF 依據相似使用者的群體喜好產生推薦結果 使用者推薦、贊過的微博、正文頁相關推薦
KeyUser-based CF 依據相似專家使用者的協同過濾推薦,利用少數人的智慧;推薦的信任來自好友和社會認同 使用者推薦(興趣維度)、熱點話題
Item-based CF 依據使用者的歷史item消費行為推薦 實時推薦、使用者推薦
Edgerank 群體動態行為的快速計算 智慧排序、錯過的微博
Min-hash/LSH 用於海量使用者關係的簡化計算 使用者關注相似度、粉絲相似度計算
歸一化演算法 Weight的歸一運算,如類idf計算、分佈熵,量化節點和邊的價值 面向關鍵節點的內容推薦、使用者推薦

這裡的困難點在於graph的“邊”怎樣量化與取捨,依據多個“邊”與“節點”的綜合評分計算,以及與網路挖掘分析結果的融合。

這部分的演算法研發中,產出瞭如下的資料附產品:

資料 說明
使用者親密度 衡量user A對其follow user B的喜愛程度,是個單向分數,依據A與B的互動行為,以及A對B的主動行為計算,隨著時間會逐步衰減
使用者影響力 使用者在微博資訊傳播過程中的社會化影響力,分廣度影響力、深度影響力、領域影響力
關注相似度 為使用者計算與其關注口味相似的使用者列表,是user-based CF的基礎資源
粉絲相似度 為使用者計算與其具有粉絲相似的使用者列表,應用於使用者推薦的實時反饋
關鍵節點 影響資訊傳播的關鍵使用者,以及具有連續優質內容生產能力的使用者。通過節點資訊的傳播效率來計算。
興趣協同使用者 採用LDA模型對使用者關係網路進行聚類分析,挖掘得到相同興趣能力的使用者。

2. Content-based 推薦演算法

Content-based 是微博推薦中最常用也是最基礎的推薦演算法,它的主要技術環節在於候選集的內容結構化分析和相關性運算。

正文頁相關推薦是content-based 應用最廣的地方,以它為例,簡要的說一下

內容分析的很多點已在前面描述過了,這裡重點說2個地方:

  • 內容質量分析,主要採用微博曝光收益+內容資訊量/可讀性的方法來綜合計算。微博曝光收益是藉助使用者群體行為,衡量內容優劣;內容資訊量計算比較簡單,即是微博關鍵詞的idf資訊迭代;對於內容可讀性的衡量,我們做了一個小的分類模型,分別以可讀性較好的新聞語料和可讀性較差的口語化語料為訓練樣本,通過提取裡面的各類詞搭配資訊,計算新微博具有良好可讀性的概率。
  • 詞擴充套件,content-based的效果取決於內容分析的深度。微博的內容比較短,可提取的關鍵資訊比較少,做相關運算時容易因為資料稀疏而導致推薦召回率和準確率的難以權衡;我們引入word2vec技術,優化了詞擴充套件效果,後面又以此為基礎開展詞聚類的工作,實現了推薦召回率和準確率的同步提升。

相關計算的技術點在於向量的量化和距離度量,我們通常使用“tf*idf權重量化 + 餘弦距離”或者“topic 概率 + KLD距離“的兩種方法。

3. Model-based 推薦演算法

微博作為中國最大的社會化媒體產品,具有海量的使用者和資訊資源;這就給推薦帶來了2個挑戰:

  • 來源融合與排序

候選的極大豐富,意味著我們有更多的選擇,於是我們推薦結果的產生包含兩層:多種推薦演算法的初選與來源融合排序的精選,為了得到更客觀準確的排序結果,我們需要引入機器學習模型,來學習隱藏在使用者群體行為背後的規律。

  • 內容動態分類和語義相關

微博UGC的內容生產模式,以及資訊快速傳播和更新的特點,意味著之前人工標註樣本,訓練靜態分類模型的方法已經過時了,我們需要很好的聚類模型把近期的全量資訊聚合成類,然後建立語義相關,完成推薦。

Model-based 演算法就是為了解決上述的問題,下面是我們兩塊最重要的機器學習工作:

3.1 CTR/RPM(每千次推薦關係達成率)預估模型,採用的基本演算法為Logistic regression,下面是我們CTR預估模型整體的架構圖

這部分工作包含樣本選擇、資料清洗、特徵提取與選擇、模型訓練、線上預估和排序。值得一提的是,模型訓練前的資料清洗和噪音剔除非常重要,資料質量是演算法效果的上界,我們之前就在這個地方吃過虧。

Logisitic regression是一個2分類概率模型

優化的目標在於最大化“樣本正確分類概率的連乘值“;我們藉助yahoo 研發的vowpal_wabbit機器學習平臺來完成模型特徵值求解的最優化過程。

3.2 LFM(Latent Factor Model):LDA、矩陣分解(SVD++、SVD Feature)

LDA是2014年初重點開展的專案,現在已經有了較好的產出,也在推薦線上產品中得到了應用;LDA本身是一個非常漂亮和嚴謹的數學模型,下面是我們一個LDA topic的例子,僅供參考。


至於矩陣分解,2013年的時候做過相應的嘗試,效果不是特別理想,沒有繼續投入。

隱語義模型是推薦精度最高的單一模型,其困難在於資料規模大時,計算效率會成為瓶頸;我們在這個地方開展了一些工作,後續會有同學專門介紹這一塊。

混合技術

三個臭皮匠頂個諸葛亮,每一種方法都有其侷限性,將不同的演算法取長補短,各自發揮價值,是極為有效的方式。微博推薦演算法主要採用了下面的混合技術:

  • 時序混合:

即在推薦過程的不同時間段,採用不同的推薦演算法;以正文頁相關推薦為例,在正文頁曝光的前期階段,採用content-based + ctr預估的方法生成推薦結果,待產生的足量可信的使用者點選行為後,再採用user-based 協同過濾的方法得到推薦結果,如下圖所示:

這樣利用content-based很好的解決了冷啟動的問題,又充分發揮了user-based CF的作用,實現1+1>2的效果。

  • 分層模型混合:

很多情況下,一個模型無法很好的得到想要的效果,而分層組合往往會取得比較好的效果,分層模型混合即“將上一層模型的輸出作為下層模型的特徵值,來綜合訓練模型,完成推薦任務“。比如我們在做微博首頁右側的ctr預估排序時,採用分層邏輯迴歸模型,解決了不同產品間特徵天然缺失與樣本量差異、曝光位置帶來的效果偏差等問題。

  • 瀑布型混合:

這類混合技術思路非常簡單,即在推薦候選非常豐富的情況下,採用逐層過濾的方法的得到推薦結果,通常將運算快、區分度低的演算法放在前面,完成大量候選集的篩選;將運算慢、區分度高的演算法放在後面,精細計算剩下的小規模集合。這類混合在微博推薦中大量使用,我們採用各種輕量演算法完成候選集粗選,然後採用ctr預估做精細化排序。

  • 交叉混合:

各類推薦演算法中子技術,可以在另外的推薦演算法中綜合使用,比如content-based在相關性計算中積累的距離計算方法,可以很好的應用在協同過濾的量化計算中。實際的例子,我們將研究LDA時積累的向量計算方法成功的應用到使用者推薦中。

 

Online 與 offline

微博資料的特點(海量、多樣、靜態與動態資料混在一起),決定了大部分推薦產品的結果需要同時藉助online和offline的計算來完成。從系統和演算法設計的角度,這是一個“重”與“輕”的問題,計算分解和組合是關鍵,我們需要將對時間不敏感的重型計算放在offline端,而將時間敏感性強的輕型快速計算放在online端。幾種我們常用的方式如下圖:

Online需要簡單可靠的演算法,快速得到結果;簡要說明下上面的圖,如下

  • 半成品有以下的3中形式

1)計算過程拆解的離線部分,如user-based CF中的使用者相似度,online通過資料庫讀取後線上計算完成user-based 推薦。

2)離線挖掘的優質候選集,如正文頁相關推薦的內容候選集,online通過索引獲取到資料後,再通過相關性和ctr預估排序生成推薦結果。

3)具有較高相似度的推薦結果集,如offline計算好粉絲相似高的使用者,線上對使用者行為做出實時反饋,實時補充推薦與其剛關注使用者相似的使用者。

  • 靜態推薦結果,是指那些與時間關聯小的推薦item,如我們的使用者推薦95%的結果來自離線計算。
  • 機器學習模型,這是一個計算過程時序性上的拆解;offline完成模型的訓練,線上呼叫model完成item排序,當然也可以通過online-learning或實時特徵值完成模型的實時更新。同時,model線上計算時,需要注意缺失特徵值的補全,保證offline與online環境的一致性。

此外,我們也有直接online計算完成的推薦結果,如首頁右側話題推薦,由於使用者對話題需求的差異非常小,它基本上是一個排行榜的需求,但熱門微博也可以有精巧的設計,我們採用了一個曝光動態收益模型,通過上一段時段的(點選收益-曝光成本)來控制下一時段的item曝光機率,取得了非常好的效果,ctr和導流量有3倍以上的提升。

不同型別的推薦結果,要輔以不同的推薦理由,這一點需要前端的多種展示嘗試和offline的日誌分析。

 

效果評測

演算法效果的度量方式決定了大家努力的方向,而對於不同型別的推薦,最好根據產品的定位和目標,採用不同的標準體系去衡量工作結果。實際效果的評測分為3個層次:使用者滿意度、產品層指標(如ctr)、演算法層指標,我們的效果評測也會分為人工評測、線上A/B測試、離線演算法效果評測3種。

產品指標的制定,應該從產品期望達成的目標出發,體現使用者滿意度。

對演算法離線評測而言,關鍵的是找到一套合理的演算法評測指標去擬合產品層指標,因為演算法離線評測總是在上線前進行,這個對應做的越好,演算法的優化成果才能更好的轉化為線上的產品指標。

下圖為我們的演算法離線效果評測的架構圖

常用的離線評測指標有:RMSE、召回率、AUC、使用者內多樣性、使用者間多樣性、新穎性等。對於不同的產品有不同的組合指標去衡量,比如使用者推薦中“使用者間多樣性”非常重要,而熱點話題卻可以允許使用者間有較大的結果重合度。

耐得住寂寞,才守得住繁華。

相關文章