Deep和Cross不得不說的秘密

云脑科技發表於2018-10-17

原文網址 : https://www.jiqizhixin.com/articles/2018-10-17-18

Deep & Cross Network(DCN)[1]是來自於 2017 年 google 和 Stanford 共同完成的一篇工作，對比同樣來自 google 的工作 Wide & Deep[2] ，DCN 不需要特徵工程來獲得高階的交叉特徵，對比 FM 系列[3][4]的模型，DCN 擁有更高的計算效率並且能夠提取到更高階的交叉特徵。

模型簡介

Deep和Cross不得不說的秘密

從網路結構上面來看，該模型是非常簡單明瞭的，特徵分為類別型與數值型，類別型特徵經過 embedding 之後與數值型特徵直接拼接作為模型的輸入。所有的特徵分別經過 cross 和 deep 網路，如果把這兩個網路看作特徵提取的話，經過提取後的特徵向量拼接之後是常規的二分類，如果訓練資料是曝光和點選，最後輸出的就可以看作點選率了。

離散特徵嵌入

離散特徵嵌入這個想法最初來自於 Mikolov 的 word2vec[5] 系列文章。最初解決的問題是詞的獨熱表示過於稀疏，並且不同詞之間的向量形式表示完全沒有聯絡。具體思路在此不贅述，最終的實現是將一個上萬維的詞獨熱表示嵌入到了只有幾百維的稠密向量中。而嵌入的本質其實是構建一張隨機初始化的向量查詢表，透過我們的訓練目標做有監督學習來得到不同詞在特定目標下，處於向量空間中的位置。

將詞嵌入的思路推廣到其它的離散特徵處理中，我們可以用同樣的方法將各種類別特徵如“使用者性別”、“城市”、“日期”嵌入到稠密的向量空間中。經過這樣處理之後，自然就解決了原本 FM 遇到的特徵稀疏問題。

高階交叉特徵

在廣告場景下，特徵交叉的組合與點選率是有顯著相關的，例如，“USA”與“Thanksgiving”、“China”與“Chinese New Year”這樣的關聯特徵，對使用者的點選有著正向的影響。換句話說，來自“China”的使用者很可能會在“Chinese New Year”有大量的瀏覽、購買行為，而在“Thanksgiving”卻不會有特別的消費行為。這種關聯特徵與label的正向相關性在實際問題中是普遍存在的，如“化妝品”類商品與“女性”，“球類運動配件”的商品與“男性”，“電影票”的商品與“電影”品類偏好等。因此，引入特徵的組合是非常有意義的。看到這種需要，我們很容易就能想到 SVM 裡面的多項式核函式，FM 就是在多項式核的基礎上，最佳化了稀疏問題以及計算複雜度的產物。

而本文開發了一個新的運算元，用另一種形式來得到交叉特徵：

Deep和Cross不得不說的秘密

考慮 x₀ 為輸入的特徵及第一層的輸入，x 為第 L 層的輸入，我們可以看到它的基本思路還是用矩陣乘法來實現特徵的組合。

這是個遞推形式運算元，所以使用它很容易能得到高於二階的交叉特徵；並且該模型還用了殘差的思想，解決網路效能退化的問題；此公式還有一個小的最佳化技巧，三矩陣相乘那個運算元，用乘法結合律先計算後面兩個矩陣的積，這樣可以減少三分之一的計算複雜度。

DCN和同場景模型對比

在此我們略過 FM，因為它已經包含在 deepFM 內了。

Deep和Cross不得不說的秘密

可以看到 deepFM 進行了離散特徵嵌入的操作，並且還將嵌入前的離散特徵加入到了 FM 層；所以該網路可以看作是傳統的 FM 、離散特徵嵌入之後的 FM 和基本 DNN 三個模型融合的結果。

Deep和Cross不得不說的秘密

可以看到 wide & deep 的思路中，deep 部分的做法和 deepFM 是大相徑庭的，關鍵的 wide 部分其實是離線的特徵工程，根據業務場景提前完成了特徵交叉等處理，該模型可以看作是 DNN 與離線特徵模型的融合結果。

而從 DCN 的網路中我們可以發現，deep 部分網路除了使用離散嵌入特徵外，還拼接了數值型特徵；cross 部分網路直接完成了特徵組合，對比 FM 層它可以學到更高階的組合特徵，對比 wide 網路它不需要做線下的特徵工程。

小結

DCN 已經在雲腦科技內部多個專案中得到了實踐運用，包括資訊流和應用商店等多個場景下的點選率預測任務。在深度定製的預測服務支援下，得益於該模型不需要複雜的特徵工程，該模型能以很低的時延和較高的併發量執行。

實踐經驗表明，手工做的特徵工程有時並不能很好的反映我們的預測目標，在實際完成的生產專案中我們更是發現，減少人工特徵工程的使用反而會提高模型的效果，也是更加耐人尋味。

Deep和Cross不得不說的祕密
2018-10-17
ROS
我和Linux，不得不說的故事
2018-09-25
Linux
「Deep & Cross Network for Ad Click Predictions」- 論文摘要
2020-02-28
ROS
JavaScript中不得不說的斷言?
2018-06-05
JavaScript
Flutter - 不得不說的 Flare 動畫
2019-09-08
Flutter動畫
瀏覽器事件環和Node事件環不得不說的故事！
2018-08-04
瀏覽器事件
Python字元編碼和二進位制不得不說的故事
2020-10-03
Python字元
Vue 中的樣式穿透 v-deep、/deep/ 和 >>>
2023-02-21
Vue穿透
Deep Cross-Modal Audio-Visual Generation論文核心部分個人理解
2019-02-12
ROS
智慧安全運營，不得不說的祕密
2019-10-21
二分查詢不得不說的事
2020-10-11
Vector() 記憶體釋放不得不說的故事
2019-08-22
記憶體
CSS的秘密——背景和邊框（下）
2021-09-09
CSS
精細化運營不得不說的那些事兒
2018-05-21
關於Python程式語言不得不說的優缺點!
2019-12-02
Python
微軟與開放——不得不說的故事（3）（轉載）
2020-04-04
微軟
華為雲與鑑黃師不得不說的那些事
2019-01-02
為什麼說Python是Fintech與金融變革的秘密武器
2018-09-12
Python
關於程式碼評審(CodeReview)那些不得不說的事兒
2022-05-24
View
談到區塊鏈，不得不說密碼學
2019-03-04
區塊鏈密碼學
玩家留存和付費的秘密：遊戲體驗
2023-11-14
遊戲
流量紅利的魔法：小遊戲與社交平臺不得不說的故事
2020-11-23
遊戲
【高併發】不得不說的執行緒池與ThreadPoolExecutor類淺析
2022-04-14
執行緒thread
開源二三事｜ShardingSphere 與 Database Mesh 之間不得不說的那些事
2022-06-27
Database
CSRF(Cross Site Request Forgery)攻擊原理和防禦
2018-10-18
ROS
#兩年移動端踩坑，遇到的那些不得不說的bug及修復
2018-03-16
我的2023--即將30歲的程式設計師，不得不說的那些怨念
2024-03-04
程式設計師
sparse_cross_attention
2024-11-23
ROS
Spring Cloud Alibaba與Spring Boot、Spring Cloud之間不得不說的版本關係
2019-03-03
CloudSpring Boot
桌遊之火，何以燎原——那些經典IP與桌遊不得不說的故事
2020-06-22
智造湘軍：華為與湖南製造業那些不得不說的故事
2020-08-16
說說我眼中的Vue和React
2018-07-10
VueReact
為什麼說小程式開發要趁早?原來隱藏著這樣的秘密!
2019-01-17
畢玄：我在阿里這十年，關於開源不得不說的事
2018-10-29
阿里
忍不住要曝光：那些WEB測試不得不說的小細節（基礎篇）
2019-04-29
Web
tf中softmax_cross_entropy_with_logits與sparse_softmax_cross_entropy_with_logits
2018-12-20
ROSGit
An Overview of PostgreSQL & MySQL Cross Replication
2019-07-07
ViewMySqlROS
不得不說，在很多業務中，這種模式用得真的很香
2024-04-26
模式

Deep和Cross不得不說的秘密

模型簡介

離散特徵嵌入

高階交叉特徵

DCN和同場景模型對比

小結

相關文章