演算法高手再度集結 通關祕籍拿走不謝

資料分析v發表於2018-05-08

近日,第二屆騰訊廣告演算法大賽啟動報名。截至目前,已收到來自中國、美國、歐洲、澳洲等20個多國家和地區的報名。眾多演算法高手已加入到這場燒腦競技中。為了讓更多參賽者在未來的比賽中有更好的表現,騰訊社交廣告此次為大家帶來了本屆賽題的詳細解析與上屆獲獎選手們的“參賽指南”。


在比賽過程中,騰訊社交廣告還將陸續為大家帶來更多參賽者的心得體會及技術專家的乾貨傳授,更多精彩內容請關注騰訊廣告演算法大賽官方訂閱平臺(ID:TSA-Contest)。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


賽題解析第一手

繼首屆高校演算法大賽以移動app轉化率預估為題之後,相似人群擴充(Lookalike)成為新一屆賽題,助力行業提高廣告整體的投放效率。相似人群擴充(Lookalike)的工作機制是基於種子使用者畫像和社交關係鏈尋找出相似用戶。


640?wx_fmt=png

圖1:根據種子使用者尋找出相似的擴充人群


一直以來,高潛力使用者難尋、精準與規模之間難取平衡點是廣告主所面臨的兩個主要難題,核心仍在於對大規模潛在使用者的有效觸及。騰訊社交廣告早在2013 年開始調研探索Lookalike 技術,設計基於種子使用者畫像和關係鏈尋找相似人群,即根據種子人群的共有屬性進行自動化擴充套件,以擴大潛在使用者覆蓋面,提升廣告效果。


雖然Lookalike技術已經發展多年,也取得了不錯的成績,但是依然需要更多科技新銳投入其中。本次大賽,騰訊社交廣告召集演算法達人,採用相似人群擴充產品中的模擬資料包作為參賽資料, 把找出相似人群的任務抽象成了一個機器學習問題。


具體來講,種子包裡包含有廣告主提交的一批已知種子使用者,可以當作機器學習問題中的正樣本。廣告平臺中有海量的非種子使用者,也有大量的廣告投放歷史資料,可以幫助生成負樣本。有了正負樣本後,相似人群擴充就變為了一個機器學習問題中的二分類問題。線上上使用中,廣告平臺可以依據二分類模型算出的後驗概率P(y|x)來判定候選使用者與種子包裡使用者的相似程度,最後將相似度最高的一批候選使用者作為最終的結果。


在這個二分類問題中,模型演算法和模型特徵成為了取得好結果的最重要的兩個因素。常見的二分類演算法模型,比如SVM,FM,GBDT,LR,NN等,都是值得嘗試的。


本次大賽分為初賽、複賽和答辯三個階段,複賽的資料規模將比初賽的資料規模大。所以,選手在使用現有的二分類演算法時,需要考慮演算法的計算複雜度,或許需要將已公開的演算法進行二次開發來滿足計算效能的要求。另外一個值得注意的點是,選手需要在使用者特徵工程上做大量的文章:在資料清洗,特徵篩選,建新特徵等特徵工程的每一步,都需要選手們想出與Lookalike問題最相關的操作才可取得好的成績。


通關經驗這裡有

賽題明確之後,眾位選手在勇往直前的同時,也要避免踩“坑”。兩屆比賽賽題雖不盡相同,但是參賽經驗可以互通。這裡還有幾顆通關彩蛋:拿到鵝廠offer的首屆選手現身說法,密授通關經驗。


640?wx_fmt=png

首屆演算法大賽獲獎選手張建敏


首枚彩蛋來自上屆“到底對不隊”的北大才女張建敏,其團隊不僅獲得了大賽總分第四名的好成績,還榮獲答辯最佳表現獎。她從比賽對自我的提升角度揮毫一篇《往屆選手分享心得:如何在比賽中提升自己?》,分享了比賽成功經驗。“到底對不隊”在深入瞭解業務邏輯的基礎上,尋找重點資料及特徵,分析不同模型對於資料的處理優勢,以此改進自己使用的模型,並將多種模型分步融合,提升結果。張建敏建議在設計整個處理方式和流程的時候考慮清楚大資料處理,以保證決賽階段換資料後的處理速度。


640?wx_fmt=png

首屆演算法大賽獲獎選手慄強


第二枚彩蛋來自上屆亞軍“Raymone”團隊的大連理工演算法大神慄強。他已經是騰訊社交廣告的準員工,即將入職鵝廠。


針對此次大賽,慄強專門為大賽萌新們編寫了《騰訊廣告演算法大賽萌新指南》,分享了一些在比賽中遇到的問題和解決方案,涵蓋資料集劃分、特徵工程、資料規模、模型選擇和融合等重量級乾貨。悄悄劃重點:慄強的指南中也提到,在比賽中要理清實際業務背後的邏輯,多做功課,向老司機學習!


古人云,三人行必有我師,“到底對不隊”和“Raymone”團隊的通關經驗都告訴我們,善於學習,查閱資料,向有經驗的朋友請教,和其他選手們互通有無,共同進步。期待本屆選手發揮優良傳統,取得佳績!


點選“ 閱讀原文 ”,檢視騰訊演算法大賽;

↓↓↓

相關文章