翻看日曆時間已經來到了2021年,也是共同戰役的第二年,許久沒有更新文章了,在與懶惰進行過幾次鬥爭都失利之後,今天拿出打工人最後的倔強,終於收穫了一場勝利。閒話不多說,今天我們們重點聊聊oCPC中轉化率模型與校準。
首先分享近期的一些“好訊息”,上了兩個AB實驗,收入全部大漲,但是並沒有推全,原因是收入效果不可看。究其原因這兩個實驗都與oCPC出價相關。
第一組實驗是圈定人群AB實驗,簡單理解就是圈出一部分的人群作為實驗組提價,這個實驗收入大漲很容易理解,因為有了提價操作,計費也自然提升。實驗組整體的消耗速度自然也有大幅度提升。
第二組實驗是圈定廣告AB實驗,就是從全量的廣告中圈出一部分廣告作為實驗組提價,這個AB收入大漲也很好理解,在單次請求中,實驗組的廣告在提價之後更容易勝出,消費自然提升。
在廣告演算法交流群中經常有人說,冷啟動oCPC廣告相比CPC的廣告掉量十分嚴重。針對這種說法,我覺得首先得看下CPA是否打平;再不濟,也得看下oCPC的出價是否打平,如果oCPC的 CPA低很多,不掉量才奇怪呢。
oCPC使用轉化率模型的預估值進行出價的計算,模型在這其中扮演著至關重要的角色。針對模型,簡單小結幾點:
(1)無模型:如果不使用轉化率模型,我們可以基於一定的規則進行統計,粒度可以從粗到細,各種人工加權均可使用,儘可能地提升更新頻率。
(2)模型形式:是拆分還是合併,各有說法。在資料量滿足一定的條件下主要pk的還是人力物力財力。只要人力物力財力沒問題,那就可以愉快地拆分,分媒體,分行業,分轉化目標均可。如果沒有那麼多的人力物力財力那就合併吧,在模型結構和特徵上深耕。
(3)模型質量:首當其衝的還是線上線下一致性,線上線下不一致,一切都是白談。然後主要關注的還是auc,gauc,pcoc,abs_error等常見指標。最後還得關注下模型的泛化性,這點主要影響冷啟動的效果。在實際工作中,經常會遇到相關的bad case。最典型的一個就是,很多廣告主將投放效果好的素材複製投放,發現效果差了很多。oCPC出價和流量選擇託管媒體平臺,廣告主的操作空間只剩下調整投放的素材。上述case會嚴重影響廣告主對於素材質量的判斷。
(4)模型調優思路:和之前講過的一樣,優先順序:資料>特徵>模型結構。尤其在oCPC初期階段,資料選擇尤為重要,例如有些廣告根本就不回傳轉化資料,這些廣告的資料顯然既不屬於正樣本也不屬於負樣本,因此肯定是不能加入轉化率模型的訓練資料中的;在特徵層面,僅僅使用id類的特徵對於模型的泛化能力會帶來毀滅性的打擊,我們需要加入統計類的特徵以及實時特徵。從實際工作中看,特徵的實時化要比模型的實時化更安全更簡單也更有效;在模型結構層面,一味地追求新穎複雜的網路結構並無實際意義,模型越複雜,對應的成本也會越高,保持模型複雜度與效果的平衡方為上策。
(5)模型評估:轉化率模型的預估結果會直接作用於出價,從開頭的兩個AB實驗也可以看出,實驗組出價的高低其實會直接影響實驗的效果。經常會出現模型上線之後,AB實驗收入上漲許多,做下資料分析發現,模型預估偏高,pcoc起飛,導致出價偏高。即使收入指標再好看,對於大盤來說也是毫無作用。轉化率模型的優化是否一定會帶來收入的上漲呢?不一定。模型效果評估先看序關係,收入,賠付,超成本,欠成本等指標都是輔助的。模型預估偏高和偏低要怎麼辦呢?做模型校準哇
什麼是模型校準?
模型較準就是模型按照後驗值對原始預測值進行校準,輸出校準之後的預測值。這裡的校準是粗粒度的校準,可以整個模型做一個校準,但通常需要保序,業界常用保序迴歸的方法,後續會詳細介紹。
為什麼要做模型校準?
做CTR模型的同學對校準通常會比較陌生,原因是常見的CTR模型在GSP機制下只要保證序關係OK就行,即關注模型的auc、gauc等指標即可,pcoc等指標大可不必糾結。CTR/CVR預估的原因和用法其實與廣告出價方式是密切相關的。如果全是CPM出價計費,不考慮廣告後端的成本,並不需要CTR模型;同樣的,如果全是按照CPC出價計費,CVR模型也是不需要的;如果是做DSP廣告參與ADX競拍的話,CTR模型就不能只考慮序關係了,因為eCPM=CTR模型預測值*CPC出價直接作為出價,與其他廣告競爭,最終的計費與eCPM相關,模型預測偏高或者偏低都會影響平臺拿量以及收益率的大小。在oCPC廣告中,CVR模型預測值直接參與出價,預測值偏高偏低都會影響廣告主的成本以及平臺的收益。
我們可以看出無論是為了對模型效果的評估還是對廣告主以及平臺收益穩定的保障,模型校準都是需要做的。如果不做校準的話,可能會出現AB實驗漲很多,大盤整體收入反而降低;或者出現模型明明預期無diff,但是上線之後收入突升突降的現象。
怎麼做模型校準?
。。。
預知後事如何,歡迎大家關注計算廣告那些事兒哈,除了原創文章之外,也會不定期和大家分享業內大牛的文章哈!