1.背景
在當前這個移動網際網路時代,除了專業內容的豐富,UGC內容更是爆發式發展,每個使用者既是內容的消費者,也成為了內容的創造者。這些海量的內容在滿足了我們需求的同時,也使我們尋找所需內容更加困難,在這種情況下個性化推薦應運而生。
個性化推薦是在大資料分析和人工智慧技術的基礎上,透過研究使用者的興趣偏好,進行個性化計算,從而給使用者提供高質量的個性化內容,解決資訊過載的問題,更好的滿足使用者的需求。
2.愛奇藝推薦系統介紹
我們的推薦系統主要分為兩個階段,召回階段和排序階段。召回階段根據使用者的興趣和歷史行為,同千萬級的影片庫中挑選出一個小的候選集(幾百到幾千個影片)。這些候選都是使用者感興趣的內容,排序階段在此基礎上進行更精準的計算,能夠給每一個影片進行精確打分,進而從成千上萬的候選中選出使用者最感興趣的少量高質量內容(十幾個影片)。
推薦系統的整體結構如圖所示,各個模組的作用如下:
(1)使用者畫像:包含使用者的人群屬性、歷史行為、興趣內容和偏好傾向等多維度的分析,是個性化的基石
(2)特徵工程:包含了了影片的類別屬性,內容分析,人群偏好和統計特徵等全方位的描繪和度量,是影片內容和質量分析的基礎
(3)召回演算法:包含了多個通道的召回模型,比如協同過濾,主題模型,內容召回和SNS等通道,能夠從影片庫中選出多樣性的偏好內容
(4)排序模型:對多個召回通道的內容進行同一個打分排序,選出最優的少量結果除了這些之外推薦系統還兼顧了推薦結果的多樣性,新鮮度,逼格和驚喜度等多個維度,更能夠滿足使用者多樣性的需求。
3.推薦排序系統架構
在召回階段,多個通道的召回的內容是不具有可比性的,並且因為資料量太大也難以進行更加精確的偏好和質量評估,因此需要在排序階段對召回結果進行統一的準確的打分排序。
使用者對影片的滿意度是有很多維度因子來決定的,這些因子在使用者滿意度中的重要性也各不相同,甚至各個因子之間還有多層依賴關係,人為制定複雜的規則既難以達到好的效果,又不具有可維護性,這就需要藉助機器學習的方法,使用機器學習模型來綜合多方面的因子進行排序。
排序系統的架構如圖所示,主要由使用者行為收集,特徵填充,訓練樣本篩選,模型訓練,線上預測排序等多個模組組成。機器學習的主體流程是比較通用的,設計架構並不需要複雜的理論,更多的是需要對細節,資料流和架構邏輯的仔細推敲
這個架構設計吸取了以前的經驗和教訓,在通用機器學習的架構基礎上解決了兩個問題:
(1)訓練預測的一致性:
機器學習模型在訓練和預測之間的差異會對模型的準確性產生很大的影響,尤其是模型訓練與線上服務時特徵不一致,比如使用者對推薦結果的反饋會實時影響到使用者的偏好特徵,在訓練的時候使用者特徵的狀態已經發生了變化,模型如果依據這個時候的使用者特徵就會產生非常大的誤差。我們的解決辦法是,將線上服務時的特徵儲存下來,然後填充到收集的使用者行為樣本中,這樣就保證了訓練和預測特徵的一致性。
(2)持續迭代:
網際網路產品持續迭代上線是常態,在架構設計的時候,資料準備,模型訓練和線上服務都必須能夠對持續迭代有良好的支援。我們的解決方案是,資料準備和模型訓練各階段解耦,並且策略配置化,這種架構使模型測試變得非常簡單,可以快速並行多個迭代測試。
4.推薦機器學習排序演算法演進
4.1 上古時期
我們第一次上線機器學習排序模型時,選用了比較簡單的Logistic Regression,將重點放到架構設計上,儘量保證架構的正確性。除此之外,LR模型的解釋性強,方便debug,並且透過特徵權重可以解釋推薦的內容,找到模型的不足之處。
在模型訓練之前,我們首先解決的是評測指標和最佳化目標的問題。
(1)評測指標(metrics)
線上效果的評測指標需要與長遠目標相匹配,比如使用使用者的投入程度和活躍度等。在我們的實驗中,業界流行的CTR並不是一個好的評測指標,它會更偏向於較短的影片,標題黨和低俗內容。
離線評測指標是按照業務來定製的,以便與線上評測指標匹配,這樣在離線階段就能夠淘汰掉無效策略,避免浪費線上流量。
(2)最佳化目標(objective)
機器學習會按照最佳化目標求解最優解,如果最佳化目標有偏差,得到的模型也存在偏差,並且在迭代中模型會不斷地向這個偏差的方向學習,偏差會更加嚴重。我們的方法是給樣本新增權重,並且將樣本權重加到loss function中,使得最佳化目標與評測指標儘可能的一致,達到控制模型的目的。
LR是個線性分類模型,要求輸入是線性獨立特徵。我們使用的稠密的特徵(維度在幾十到幾百之間)往往都是非線性的,並且具有依賴性,因此需要對特徵進行轉換。 特徵轉換需要對特徵的分佈,特徵與label的關係進行分析,然後採用合適的轉換方法,我們用到的有以下幾種:Polynomial Transformation,Logarithmic or Exponential Transformation,Interaction Transformation和Cumulative Distribution Function等。
雖然LR模型簡單,解釋性強,不過在特徵逐漸增多的情況下,劣勢也是顯而易見的。
(1)特徵都需要人工進行轉換為線性特徵,十分消耗人力,並且質量不能保證
(2)特徵兩兩作Interaction 的情況下,模型預測複雜度是O(n^2)。在100維稠密特徵的情況下,就會有組合出10000維的特徵,複雜度高,增加特徵困難
(3)三個以上的特徵進行Interaction 幾乎是不可行的
4.2 中古時期
為了解決LR存在的上述問題,我們把模型升級為Facebook的GBDT+LR模型,模型結構如圖所示。
GBDT是基於Boosting 思想的ensemble模型,由多顆決策樹組成,具有以下優點:
(1)對輸入特徵的分佈沒有要求
(2)根據熵增益自動進行特徵轉換、特徵組合、特徵選擇和離散化,得到高維的組合特徵,省去了人工轉換的過程,並且支援了多個特徵的Interaction
(3)預測複雜度與特徵個數無關
假設特徵個數n=160決策數個數k=50,樹的深度d=6,兩代模型的預測複雜度對比如下,升級之後模型複雜度降低到原來的2.72%
GBDT與LR的stacking模型相對於只用GBDT會有略微的提升,更大的好處是防止GBDT過擬合。升級為GBDT+LR後,線上效果提升了約5%,並且因為省去了對新特徵進行人工轉換的步驟,增加特徵的迭代測試也更容易了。
4.3 近代歷史
GBDT+LR排序模型中輸入特徵維度為幾百維,都是稠密的通用特徵。這種特徵的泛化能力良好,但是記憶能力比較差,所以需要增加高維的(百萬維以上)內容特徵來增強推薦的記憶能力,包括影片ID,標籤,主題等特徵。GBDT是不支援高維稀疏特徵的,如果將高維特徵加到LR中,一方面需要人工組合高維特徵,另一方面模型維度和計算複雜度會是O(N^2)級別的增長。所以設計了GBDT+FM的模型如圖所示,採用Factorization Machines模型替換LR。
Factorization Machines(FM)模型如下所示,具有以下幾個優點:
i.模型公式
ii.前兩項為一個線性模型,相當於LR模型的作用
iii.第三項為一個二次交叉項,能夠自動對特徵進行交叉組合
iv.透過增加隱向量,模型訓練和預測的計算複雜度降為了O(N)
v.支援稀疏特徵
這幾個優點,使的GBDT+FM具有了良好的稀疏特徵支援,FM使用GBDT的葉子結點和稀疏特徵(內容特徵)作為輸入,模型結構示意圖如下,GBDT+FM模型上線後相比GBDT+LR在各項指標的效果提升在4%~6%之間。
典型的FM模型中使用user id作為使用者特徵,這會導致模型維度迅速增大,並且只能覆蓋部分熱門使用者,泛化能力比較差。在此我們使用使用者的觀看歷史以及興趣標籤代替user id,降低了特徵維度,並且因為使用者興趣是可以複用的,同時也提高了對應特徵的泛化能力。
我們主要嘗試使用了L-BFGS、SGD和FTRL(Follow-the-regularized-Leader)三種最佳化演算法進行求解:
(1)SGD和L-BFGS效果相差不大,L-BFGS的效果與引數初始化關係緊密
(2)FTRL,較SGD有以下優勢:
[1] 帶有L1正則,學習的特徵更加稀疏
[2] 使用累計的梯度,加速收斂
[3] 根據特徵在樣本的出現頻率確定該特徵學習率,保證每個特徵有充分的學習
FM模型中的特徵出現的頻次相差很大,FTRL能夠保證每個特徵都能得到充分的學習,更適合稀疏特徵。線上測試表明,在稀疏特徵下FTRL比SGD有4.5%的效果提升。
4.4 當代模型
GBDT+FM模型,對embedding等具有結構資訊的深度特徵利用不充分,而深度學習(Deep Neural Network)能夠對嵌入式(embedding)特徵和普通稠密特徵進行學習,抽取出深層資訊,提高模型的準確性,並已經成功應用到眾多機器學習領域。因此我們將DNN引入到排序模型中,提高排序整體質量。
DNN+GBDT+FM的ensemble模型架構如圖所示,FM層作為模型的最後一層,即融合層,其輸入由三部分組成:DNN的最後一層隱藏層、GBDT的輸出葉子節點、高維稀疏特徵。DNN+GBDT+FM的ensemble模型架構介紹如下所示,該模型上線後相對於GBDT+FM有4%的效果提升。
i. DNN模型
a)使用全連線網路,共三個隱藏層
b)隱藏節點數目分別為1024,512和256
c)預訓練好的使用者和影片的Embedding向量,包含基於使用者行為以及基於語義內容的兩種Embedding
d)DNN能從具有良好數學分佈的特徵中抽取深層資訊,比如embedding特徵,歸一化後統計特徵等等
e)雖然DNN並不要求特徵必須歸一化,不過測試發現有些特徵因為outlier的波動範圍過大,會導致DNN效果下降
ii. GBDT模型
a)單獨進行訓練,輸入包含歸一化和未歸一化的稠密特徵
b)能處理未歸一化的連續和離散特徵
c)能根據熵增益自動對輸入特徵進行離散和組合
iii. FM融合層
a)FM模型與DNN模型作為同一個網路同時訓練
b)將DNN特徵,GBDT輸出和稀疏特徵進行融合並交叉
iv.使用分散式的TensorFlow進行訓練
v.使用基於TensorFlow Serving的微服務進行線上預測
DNN+GBDT+FM的ensemble模型使用的是Adam最佳化器。Adam結合了The Adaptive Gradient Algorithm(AdaGrad)和Root Mean Square Propagation(RMSProp)演算法,具有更優的收斂速率,每個變數有獨自的下降步長,整體下降步長會根據當前梯度進行調節,能夠適應帶噪音的資料。實驗測試了多種最佳化器,Adam的效果是最優的。
4.5 工業界DNN ranking現狀
(1)Youtube於2016年推出DNN排序演算法
(2)上海交通大學和UCL於2016年推出Product-based Neural Network(PNN)網路進行使用者點選預測。PNN相當於在DNN層做了特徵交叉,我們的做法是把特徵交叉交給FM去做,DNN專注於深層資訊的提取
(3)Google於2016年推出Wide And Deep Model,這個也是我們當前模型的基礎,在此基礎上使用FM替換了Cross Feature LR,簡化了計算複雜度,提高交叉的泛化能力
(4)阿里今年使用attention機制推出了Deep Interest Network(DIN)進行商品點選率預估,最佳化embedding向量的準確性,值得借鑑
5.總結
推薦系統的排序是一個經典的機器學習場景,對於推薦結果影響也十分重大,除了對模型演算法的精益求精之外,更需要對業務的特徵,工程的架構,資料處理的細節和pipeline的流程進行仔細推敲和深入的最佳化。Ranking引入DNN僅僅是個開始,後續還需要在模型架構、Embedding特徵、多樣性、冷啟動和多目標學習中做更多的嘗試,提供更準確,更人性化的推薦,最佳化使用者體驗。