牛亞男：基於多Domain多工學習框架和Transformer，搭建快精排模型

DataFunTalk發表於2022-06-18

原文網址 : https://www.cnblogs.com/datafuntalk/p/16389017.html

file

導讀： 本文主要介紹了快手的精排模型實踐，包括快手的推薦系統，以及結合快手業務展開的各種模型實戰和探索，全文圍繞以下幾大方面展開：

快手推薦系統
CTR模型——PPNet
多domain多工學習框架
短期行為序列建模
長期行為序列建模
千億特徵，萬億引數模型
總結和展望

01 快手推薦系統

快手的推薦系統類似於一個資訊檢索正規化，只不過沒有使用者顯示query。結構為資料漏斗，候選集有百億量級的短視訊，在召回層，會召回萬級的視訊給粗排打分，再選取數百個短視訊，給精排模型打分，最後會有數十個短視訊進行重排。推薦主要是雙類或單類，快手推薦的特點是使用者比較多，會超過3.0億。我們的短視訊，每天有百億的分發量，候選的短視訊有百億之多，使用者的行為差距會非常之大，比如，有些使用者每天會刷成百上千條短視訊，有些使用者又刷得非常少。相對於電商或者新聞來說，短視訊的玩法會更豐富，使用者的興趣非常廣泛，並且是不變的。

file

使用者的互動型別非常多，場景複雜。這裡簡單展示一下，主要有主站的雙列發現頁、主站精選、極速版發現頁，這些主要是用來幫助使用者發現可能感興趣的視訊，還有關注頁、同城頁。除了短視訊之外，還有直播、電商直播的推薦。對於整個推薦系統來說，我們最大的挑戰是如何為使用者的興趣精準建模。

file

02 CTR模型——PPNet

file

這是我們2019年的模型，ctr的個性化預估是推薦系統的核心，主要用來預估使用者對視訊會不會點選，預估效果直接影響使用者體驗。

從業界的演化來看，一方面是從特徵的交叉角度，另一方面是從使用者的行為序列建模來提升模型個性化。這裡DNN核心為全連線網路。

特徵全域性共享，主要用來捕捉全域性使用者和短視訊的特徵。要做到真正的千人千面，需要使用者個性化的特徵更強一些。所以當時我們探索瞭如何為DNN網路增加個性化。我們嘗試了一些方法，最開始嘗試用stacking的方法，在最頂層或中間加一些user獨有的一些網路，對網路的引數，每個使用者是不同的，但是收益甚微。然後我們嘗試了另外一種方式，受LHUC的啟發，思想來源於語音識別，給每個使用者學習個性化的偏置項。

file

在網路輸出的啟用函式那裡，設定了個性化的偏置項，可以認為是給每個使用者學了一個bias和一個vector。我們做了一些嘗試，但是基本上沒有太大的收益。

我們發現一些問題，總結來說，首先是使用者每天刷的樣本不足以讓網路的引數收斂，因為引數量相對來說比較少，這相當於是給一個使用者學一個最寬的一個id的embedding向量。

另外使用者每天都在上傳新的視訊，我們推薦的視訊，主要約束在兩天以內，所以會有一個視訊冷啟動的問題，而且基於流式訓練，會導致訓練樣本中各方面的噪聲非常大，如果是一個不穩定的網路，也會導致embedding的效果變差。如果只是簡單學一個優質的id的embedding，則缺少足夠的動態表達能力。另外，如果只是通過bp的方法傳導梯度來更新id的embedding，其修正能力非常慢。最終我們在lte的基礎上設計了一個pnet，以全域性共享為基礎，進行個性化的微調；我們又設計了gate網路來擬合個性化的引數：

白色的部分可以認為是原來的基線。這個基線主要是訓練原來的ctr模型。
灰色和綠色部分是新加的，灰色部分是基於所有使用者共享的，綠色部分是門控網路，通過門控網路與灰色部分的網路來學習使用者的個性化。

file

這兩部分的網路也就是ppnet的網路結構。上線後，收益非常明顯。包括所有使用者細分上提升都是非常明顯的，特別是一些行為比較稀疏的使用者，他們的提升非常大，因為他們的行為相對來說比較少，之前的兩個方案模型很難學到他們的一些特徵。這套方案給我們提供了一個比較通用的提升模型個性化的方法。

我們推廣到了一些其他場景，實現多場景應用。但是這個演算法的計算量比較大，因此我們對線上的預估服務做了一次升級——原來是cpu預估，我們在2019年10月份做了gpu加速預估。

03 多domain多工學習框架

file

快手的產品場景非常多樣，包括主站發現頁、主站精選、發現頁內流、極速版發現頁等。另一方面，人群多樣化，包括新使用者、老使用者、啟用使用者等。另外，這兩個場景正交，就有幾十個目標。因此，我們要預估的目標也會非常多。這樣會存在一系列的問題，比如業務獨佔模型會導致訓練資源低效、迭代低效、業務間不共享網路等。為了解決這些問題，我們在模型融合場景下做了多工學習。

file

對於模型融合，我們做了很多工作，比如特徵語義對齊，主要包括刪減無用特徵，改正語義不一致特徵，新增單列播放列表類特徵、交叉特徵；embedding空間的對齊，通過Embedding transform gate，直接學習對映關係；特徵重要性對齊，這裡用到了slot gate，主要參考了前面提到的ppnet裡面的gate設計方案。在不同的場景下，不同的使用者或視訊，對於特徵的重要性選擇，gate會把它約束在0～2，均值是1，動態選擇這個特徵是重要還是不重要，這樣我們可以將樣本的特徵做一個比較好的對齊。最後，我們做了一個多目標的mmoe，動態建模目標之間的關係，每個task tower輸入新增個性化偏置項。通過上面的工作，我們成功將線上與離線的模型融合成一套模型，全業務推全，使用者互動漲幅提升近10%，效果顯著。

04 短期行為序列建模

接下來介紹短期行為序列建模的工作，在2019年初，快手互動場景越來越多，同時出現了單雙列的互動體驗，單雙列業務下使用者行為序列存在差異。單列剝奪了使用者主動點的權利，使用者更多是被動來看推薦系統推薦的短視訊，因此，單列更適合作E&E。雙列的互動體驗下使用者獲得的主動性、可選擇性強，使用者的點選歷史沒有太多的特徵可以學習，使用者會不斷地釋放自己想看的內容，釋放自己的慾望，可能會一直不斷地在看相關的一些內容。我們當時做了一些嘗試，發現RNN表現不如sum pooling，其相關性大於時序性。因此我們對演算法做了四個方面的改進：

① 使用encoder部分：對歷史序列進行表徵

② 使用使用者視訊播放歷史序列

包含使用者更多資訊（觀看時長，互動label）
不同業務語義一致

③ Transformer layer self attention替為target attention

Self attention無明顯收益
使用當前embedding層對sequence做attention
簡化計算複雜度 O(n2d) -> O(nd)

④ log(now - 視訊觀看時間戳) 代替position embedding

最近觀看視訊更相關，log處理更合適
更久之前觀看視訊體現使用者長期興趣分佈

file

首先，使用encoder部分對歷史序列進行表徵。其次，使用使用者視訊播放歷史序列，因為裡面包含使用者更多資訊（觀看時長、互動label）。另外，將Transformer layer self attention替換為target attention，主要是self attention無明顯收益，然後使用當前embeding層對sequence做attention，因為我們認為對使用者的行為歷史作為監測的時候，不應該只看要推薦的這個視訊，我們還會關注這是一個什麼使用者，這個使用者的上下文資訊是非常有用的。最後，使用log(現在時間-視訊觀看時間)代替position embedding，因為最近觀看視訊更相關，log處理更合適。上線之後，取得了非常大的收益。

05 長期行為序列建模

file

推薦系統擁有短期記憶，容易導致資訊繭房或者出現多樣性不足的一些問題。但是在長期行為建模的時候又遇到了各種問題，比如：Transformer建模問題，SIM使用者歷史索引問題等。Transformer建模容易出現結構限制，模型在過長的list上收斂性不好。另外，模型複雜度高，Target Attention計算成本也會很高。SIM使用者歷史索引的擴充套件性差，對於後續的迭代不友好，而且對於短視訊類目精準度和覆蓋率也有問題。為了能夠捕捉到使用者不同程度的興趣偏好，我們迭代了兩個版本模型，作了很多探索和改進。

下面介紹快手在長期行為序列建模的工作。

file

第一個版本方案V1.0(基於Tag檢索)

為了應對上面提到的一些問題，我們採用了獨立儲存方案，依託AEP高密度儲存裝置直接儲存使用者超長行為歷史；進一步完善類目體系；GSU檢索採用回溯補全演算法，最大路徑匹配的演算法衡量相似度；ESU採用短時。關於Transformer方案，難點在於計算量增加，因此我們進行了演算法優化；合併相同Tag候選視訊的搜尋過程；提前建立類目倒排鏈，簡化搜尋流程；成本優化，利用線上 GPU 推理伺服器的閒置 CPU 資源。通過這些嘗試，我們做到了讓SIM演算法首次在短視訊推薦落地；在業界首次覆蓋使用者歷史至年，這是數萬級別的；收益巨大，建立了護城河；擴充套件到了其他場景。

file

V2.0(基於Embedding距離檢索)

後面又做了第二個版本，基於視訊內容embedding的聚類。採用GSU檢索演算法:優先聚類內視訊；最近聚類補全；近似做了餘弦相似度檢索。

其次，又節省了餘弦相似度計算量。通過這些工作，我們取得了一些成果：建立了快手特色的長期行為建模機制；收益巨大，建立了護城河；擴充套件到了其他場景。

經過這兩版的迭代，整體效果提升明顯，人均app使用時長提升顯著，其中我們的工作做了非常多的貢獻。

06 千億特徵，萬億引數模型

另外，我們發現模型的特徵量還會制約模型精排的效果。模型收斂不穩定，模型更容易逐出低頻特徵、冷啟動效果變差等。為此，我們在工程上做了一些優化，也起到了非常好的收益。主要包括：

改進引數伺服器（GSET）
更好地控制記憶體使用
定製feature score淘汰策略
效果優於LFU，LRU等淘汰策略
結合新的硬體：非易失記憶體（Intel AEP）
底層KV引擎NVMKV來支撐GSET

07 總結和展望

對於未來優化的重點，我們會放在模型融合，多工學習方向。另外使用者長短期興趣怎樣更好得建模和融合，以及使用者的留存建模也是我們未來優化的重點。

今天的分享就到這裡，謝謝大家。
本文首發於微信公眾號“DataFunTalk”。

基於多工學習的智慧客服下文檢測方法
2019-05-30
多工學習模型之DBMTL介紹與實現
2022-03-10
模型
多工學習模型之ESMM介紹與實現
2022-11-23
模型
架構學習-多工
2024-04-13
架構
並行多工學習論文閱讀（一）：多工學習速覽
2021-10-29
並行
AAAI 2020 | 基於多工自監督學習的文字順滑研究
2020-01-14
AI
Sunny.Xia的深度學習(四)MMOE多工學習模型實戰演練
2020-12-20
深度學習模型
基於 webpack4 搭建 vue2、vuex 多頁應用框架
2018-07-30
WebVue框架
[Python急救站]基於Transformer Models模型完成GPT2的學生AIGC學習訓練模型
2024-04-29
PythonORM模型GPTAIGC
基於.net core 七牛雲上傳多圖片
2024-05-17
多工學習分散式化及聯邦學習
2022-03-01
分散式聯邦學習
基於正則化的多工聯邦
2024-09-29
python 多程式和多執行緒學習
2019-12-18
Python執行緒
基於Cucumber框架的學習
2024-08-23
框架
基於 Quanto 和 Diffusers 的記憶體高效 transformer 擴散模型
2024-08-30
記憶體ORM模型
知其然，知其所以然：基於多工學習的可解釋推薦系統
2019-03-29
transformer->多模態
2024-09-08
ORM
基於Keras和Gunicorn+Flask部署深度學習模型
2019-10-08
KerasFlask深度學習模型
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
基於多模態大模型的人機對話
2022-12-19
大模型
快排實現仿order by多欄位排序
2019-02-15
排序
基於Theano的深度學習框架keras及配合SVM訓練模型
2020-04-06
深度學習框架Keras模型
機器學習：詳解多工學習（Multi-task learning）
2024-07-24
機器學習
聯邦學習：多工思想與聚類聯邦學習
2022-03-15
聯邦學習聚類
多執行緒學習一（多執行緒基礎）
2019-04-09
執行緒
【MES】MES多工廠模型探討
2018-04-08
模型
利用Mesos構建多工排程系統
2018-11-05
深度學習|基於MobileNet的多目標跟蹤深度學習演算法
2022-11-09
深度學習演算法
關於linux多執行緒fork的理解和學習
2022-05-14
Linux執行緒
多工學習時轉角遇到Bandit老虎機
2019-10-18
基於maven構建多模組化的SSM框架
2019-03-04
MavenSSM框架
JavaSE基礎知識學習—–多型
2019-02-25
Java多型
關於GCD多工處理
2019-03-16
GC
多模態大模型有了統一分割框架，華科PSALM多工登頂，模型程式碼全開源
2024-04-08
大模型框架
Netty 框架學習 —— EventLoop 和執行緒模型
2021-06-20
Netty框架OOP執行緒模型
transformer多頭注意力的不同框架實現（tensorflow+pytorch）
2020-11-18
ORM框架PyTorch
基於微控制器的多工輪詢系統
2021-02-14
從資訊流推薦到控制領域，基於PaddlePaddle的強化學習框架PARL有多強？
2019-02-01
強化學習框架

牛亞男：基於多Domain多工學習框架和Transformer，搭建快精排模型

01 快手推薦系統

02 CTR模型——PPNet

03 多domain多工學習框架

04 短期行為序列建模

05 長期行為序列建模

06 千億特徵，萬億引數模型

07 總結和展望

相關文章