近年來隨著人工智慧的發展,深度學習開始在工業界不同場景落地。深度學習跟以前的機器學習模型相比,其中很重要的特點就是在於能在模型側自動構建特徵,實現端到端學習,效果也有明顯提升,但新的問題如模型效果和推理效率的衝突也開始凸顯。
愛奇藝提出了新的線上知識蒸餾方法來平衡模型效果和推理效率,在推薦場景上獲得了明顯的效果,本文主要介紹愛奇藝在探索升級排序模型的過程中提出的雙DNN排序模型。文章開始之前,首先為大家科普與本文主題相關的關鍵詞的含義及相關技術知識。
關鍵詞
寫在前面
近些年來,學術界和工業界陸續開展了多項讓排序模型變的wider and deeper的相關工作,其中,wider(更寬)意味著一個模型包含更多不同的子模型,如xDeepFM[1]包括了LR, DNN和CIN三種元件,分別建模一階顯示特徵交叉(LR),高階隱式特徵交叉(DNN)和高階顯示特徵交叉(CIN);deeper(更深)意味著透過增加模型複雜性來提升模型效能,一些在NLP和CV領域使用的複雜元件開始被引入排序模型,如xDeepFM的CIN其實是利用卷積神經網路來建模特徵交叉, BST[2]利用Transformer建模使用者行為序列的表徵。然而,更深更寬的模型在提升模型效果的同時,往往伴隨著模型推理效率的下降。
愛奇藝提出的線上知識蒸餾方法來平衡模型效果和推理效率,並在短影片資訊流和圖文資訊流兩個重要場景上線後都獲得了明顯的正向效果。其中,在愛奇藝短影片場景時長指標+6.5%,點選率指標+2.3%;圖文推薦場景時長指標+4.5%,點選率指標+14% 。
深度學習時代排序模型的演進
從建模特徵組合這個角度去介紹深度學習時代排序模型的演進,按照時間的發展經歷了三個時期(萌芽期、中興期和突破期),具體如下:
b. 中興期:深度排序模型開始被廣泛接受,代表模型為WDL[3]和 DeepFM[4]等,這些模型的優勢在於在DNN基礎上,增加了顯示的一階或二階特徵組合。其中WDL幾乎成了推薦廣告CTR模型從傳統機器學習時代過渡到深度學習的敲門磚,應用這一模型既能嚐到深度學習的甜頭,又能複用已有的排序模型成果進一步提升模型效能;
c. 突破:從DCN[5],xDeepFM開始,深度排序模型開始變的更深更寬,尤其重視使用DL元件來顯示建模高階特徵交叉,其顯示的高階特徵組合更符合演算法工程師對排序模型的期許。透過模型本身來進行特徵組合可以避免人工特徵組合的一些弊端,如工程代價和人力成本。
上面介紹的深度排序模型可以歸類為如下表格,顯示的高階vector-wise交叉相對更make sense, 也是最近一些排序模型工作的核心最佳化點:
當使用和現有baseline model一樣的CPU推理資源時,像xDeepFM這樣的複雜深度模型無法上線。若使用GPU進行推理, ROI並不高。與這兩種情況相比,知識蒸餾[6]這一類模型壓縮方法是解決這類問題的良藥,可以將複雜模型的知識遷移到簡單模型。