點選率預估與冷啟動（二）

GeorgePig發表於2021-04-18

原文網址 : https://www.cnblogs.com/GeorgePigX/p/14673053.html

上一篇文章點選率預估與冷啟動（一）我們們說到了鍵值儲存網路，今天我們接著往下說。

鍵值儲存網路實現了字典特徵到向量的轉換，而我們希望得到的是連續值特徵到向量的轉換。我們其實只需要再實現連續值到字典特徵的轉化就大功告成了。雖然連續值特徵到向量很難，但是連續值特徵到字典特徵的實現方式卻有很多。

假定有了連續值特徵到字典特徵的轉化，那麼總體架構和鍵值記憶網路基本一致，如下圖所示：

連續值特徵到字典特徵的轉化即圖中的Key-Value Memory，如何實現這部分應當結合具體業務場景的資料分佈。這裡先介紹下郭佬的做法吧：

(1).將連續值特徵縮放至區間[0,1]

(2).在[0,1]區間找n等分點，比如n=6時，就是(0, 0.2, 0.4, 0.6, 0.8, 1)

(3).依次計算連續值特徵x與n等分點的距離，比如x=0.3，n=6，就是(0.3, 0.1, 0.1, 0.3, 0.5, 0.7)，之後構造字典特徵{0:0.3, 1:0.1, 2:0.1, 3:0.3, 4:0.5, 5:0.7}

(4).對字典特徵的value部分取倒數後接softmax，具體相似度公式如下：

公式當中分母上加10^-15是為了防止當q正好等於某個等分點時分母為0的情況。郭佬的方法將字典特徵的key定義為[0,1]區間的等分點，之後對浮點數與各等分點的距離做取倒數和softmax變換。取倒數是為了保證浮點數越接近等分點，權重越大。softmax變換是為了保證所有權重之和為1。

實踐中發現，當q與某個等分點較接近時，value中除了該等分點對應的值外，其它值都非常接近0。這主要是因為softmax函式會指數級加大距離間的差異。為了緩解這種情況，我們對上述公式做了改進：

該公式取距離平方反比為權值，之後將權值縮放至總和為1。用該公式得到的權值比較“分散”,可以讓模型更好的學習那些冷門分位數的embedding表示。

截至目前，我們已經講了點選率特徵的貝葉斯平滑，以及如何在不損失精度的情況下把浮點數特徵（比如點選率特徵）輸入神經網路。

如果把點選率看成一個普通浮點數，問題已經解決。但是點選率並不普通，點選率可以被認為是使用者是否點選廣告這個隨機變數的期望值。

使用者是否點選廣告實際上是一個隨機變數，點選率就是用這個隨機變數的期望值作為特徵，去描述它。這樣做實際上是用一個值去代表一個複雜的分佈，必然會帶來資訊損失。舉個例子，A使用者瀏覽20次，點選10次。B使用者瀏覽100次，點選50次。A和B的點選率都是50%，但是他們是否點選廣告的概率分佈卻大不一樣，雖然AB兩使用者點選率都是50%，但是B使用者點選次數更多，所以B使用者的點選率置信度更高，B使用者的概率分佈也更集中。這就體現出點選率特徵的弊端，它只能描述概率分佈的期望，而無法完整描述概率分佈。

我們希望完整描述概率分佈給到模型，我們希望精確區分出點選率很相似但總瀏覽數差異很大的那群人。這個問題可以被定義為如何向模型描述一個概率分佈。使用者是否點選廣告的概率分佈是連續的，可以用概率密度函式表示。我們對概率密度函式進行分段近似，分別統計它在[0,0.1),[0.1,0.2),[0.2,0.3),[0.3,0.4)...區間的平均值，用這些平均值來表示這個分佈。形式如下：

{[0,0.1):0.1,[0.1,0.2):0.2,[0.2,0.3):0.4,[0.3,0.4):0.4,...}

該形式其實也是字典特徵，它的key表示的是一個區間，value是點選率這個隨機變數落在各區間的概率。如此一來，可以直接將這個字典特徵輸入鍵值儲存網路。這種方式利用隨機變數的概率分佈，跳過了連續值特徵轉到字典特徵這一步，直接做隨機變數值到字典特徵，避免了上文中的人工設計的相似度公式所帶來的資訊損失。如果構造的特徵可以被看做是隨機變數，那麼就可以利用數學工具得到它的概率分佈，概率分佈分段近似得到字典特徵，最後將字典特徵輸入鍵值儲存網路。

到此為止，我們講完了點選率預估與冷啟動，具體方法概括如下：首先利用貝葉斯平滑對點選率這種連續值特徵進行修正，使其更接近使用者真實點選的概率，接著將修正後的特徵值轉換成字典特徵，最構建整個鍵值儲存網路。

下一篇我們們講講oCPC中的成本控制。

歡迎關注微信公眾號：計算廣告那些事兒

留存率預估
2024-05-08
熱備份/冷備份/ 冷啟動/熱啟動
2018-08-20
Python做點選率資料預測
2024-06-18
Python
廣告預估模型（二）
2021-03-13
模型
冷啟動演算法系列-雲音樂歌曲冷啟動初探
2022-04-18
演算法
Android APP 冷啟動流程
2018-09-15
AndroidAPP
Ubuntu 修改預設啟動選單
2024-08-02
Ubuntu
阿里媽媽牟娜：定向廣告新一代點選率預估主模型——深度興趣演化網路
2022-05-21
阿里模型
RAC二節點啟動異常
2022-02-15
Android效能優化之啟動過程（冷啟動和熱啟動）
2019-09-24
Android優化
閒置計費 | 冷啟動與成本間的最優解
2022-05-06
CTR （點選通過率）
2020-10-04
機器學習-學習筆記(二) --> 模型評估與選擇
2022-06-09
機器學習筆記模型
閒置計費 | Serverless 冷啟動與成本間的最優解
2022-05-05
Server
抖音推薦系統冷啟動
2018-08-19
冷啟動延時縮短50%-80%，阿里雲函式計算釋出冷啟動加速技術
2021-03-26
阿里函式
推薦系統之冷啟動問題
2018-12-13
mtk相機冷啟動階段劃分
2024-04-15
【冷啟動#1】實用的MySQL基礎
2024-06-28
MySql
AWS Lambda SnapStart提高Java冷啟動10倍
2022-12-05
Java
TrendForce：預估2023年OLED手機滲透率達50.8%
2022-11-30
LTR那點事—AUC及其與線上點選率的關聯詳解
2019-10-14
雲端計算再爆新熱點，SnapStart解決Serverless冷啟動問題
2022-12-26
Server
判斷伺服器最後一次啟動是熱啟動還是冷啟動
2021-05-14
伺服器
TrendForce：預估2020年AMOLED智慧手機滲透率達35.6%
2020-05-08
Android應用優化之冷啟動優化
2018-11-04
Android優化
如何實現 iOS App 的冷啟動優化
2020-03-09
iOSAPP優化
多工學習(MTL)在轉化率預估上的應用
2021-04-05
【機器學習】第二節-模型評估與選擇-效能度量、方差與偏差、比較檢驗
2024-05-17
機器學習模型
【冷啟動#2】實用的springboot tutorial入門demo
2024-07-04
Spring Boot
關於雲函式冷啟動優化的思考
2021-12-04
函式優化
令牌桶、漏斗、冷啟動限流在sentinel的應用
2021-01-30
GRUB配置預設選擇上一次的啟動項
2024-07-31
【cbo計算公式】單表選擇率(二)
2018-08-19
公式
【模型評估與選擇】sklearn.model_selection.KFold
2018-07-03
模型
手遊UI互動動作設計研究：點選、滑動與拖拽
2020-01-08
UI
vue3 點選下載檔案，不開啟預覽，已解決
2022-05-23
Vue
crm與kindee雲星空的功能支援、預估情況
2024-09-29

點選率預估與冷啟動（二）

相關文章