演算法高手再度集結 通關祕籍拿走不謝
近日,第二屆騰訊廣告演算法大賽啟動報名。截至目前,已收到來自中國、美國、歐洲、澳洲等20個多國家和地區的報名。眾多演算法高手已加入到這場燒腦競技中。為了讓更多參賽者在未來的比賽中有更好的表現,騰訊社交廣告此次為大家帶來了本屆賽題的詳細解析與上屆獲獎選手們的“參賽指南”。
在比賽過程中,騰訊社交廣告還將陸續為大家帶來更多參賽者的心得體會及技術專家的乾貨傳授,更多精彩內容請關注騰訊廣告演算法大賽官方訂閱平臺(ID:TSA-Contest)。
賽題解析第一手
繼首屆高校演算法大賽以移動app轉化率預估為題之後,相似人群擴充(Lookalike)成為新一屆賽題,助力行業提高廣告整體的投放效率。相似人群擴充(Lookalike)的工作機制是基於種子使用者畫像和社交關係鏈尋找出相似用戶。
圖1:根據種子使用者尋找出相似的擴充人群
一直以來,高潛力使用者難尋、精準與規模之間難取平衡點是廣告主所面臨的兩個主要難題,核心仍在於對大規模潛在使用者的有效觸及。騰訊社交廣告早在2013 年開始調研探索Lookalike 技術,設計基於種子使用者畫像和關係鏈尋找相似人群,即根據種子人群的共有屬性進行自動化擴充套件,以擴大潛在使用者覆蓋面,提升廣告效果。
雖然Lookalike技術已經發展多年,也取得了不錯的成績,但是依然需要更多科技新銳投入其中。本次大賽,騰訊社交廣告召集演算法達人,採用相似人群擴充產品中的模擬資料包作為參賽資料, 把找出相似人群的任務抽象成了一個機器學習問題。
具體來講,種子包裡包含有廣告主提交的一批已知種子使用者,可以當作機器學習問題中的正樣本。廣告平臺中有海量的非種子使用者,也有大量的廣告投放歷史資料,可以幫助生成負樣本。有了正負樣本後,相似人群擴充就變為了一個機器學習問題中的二分類問題。線上上使用中,廣告平臺可以依據二分類模型算出的後驗概率P(y|x)來判定候選使用者與種子包裡使用者的相似程度,最後將相似度最高的一批候選使用者作為最終的結果。
在這個二分類問題中,模型演算法和模型特徵成為了取得好結果的最重要的兩個因素。常見的二分類演算法模型,比如SVM,FM,GBDT,LR,NN等,都是值得嘗試的。
本次大賽分為初賽、複賽和答辯三個階段,複賽的資料規模將比初賽的資料規模大。所以,選手在使用現有的二分類演算法時,需要考慮演算法的計算複雜度,或許需要將已公開的演算法進行二次開發來滿足計算效能的要求。另外一個值得注意的點是,選手需要在使用者特徵工程上做大量的文章:在資料清洗,特徵篩選,建新特徵等特徵工程的每一步,都需要選手們想出與Lookalike問題最相關的操作才可取得好的成績。
賽題明確之後,眾位選手在勇往直前的同時,也要避免踩“坑”。兩屆比賽賽題雖不盡相同,但是參賽經驗可以互通。這裡還有幾顆通關彩蛋:拿到鵝廠offer的首屆選手現身說法,密授通關經驗。
首屆演算法大賽獲獎選手張建敏
首枚彩蛋來自上屆“到底對不隊”的北大才女張建敏,其團隊不僅獲得了大賽總分第四名的好成績,還榮獲答辯最佳表現獎。她從比賽對自我的提升角度揮毫一篇《往屆選手分享心得:如何在比賽中提升自己?》,分享了比賽成功經驗。“到底對不隊”在深入瞭解業務邏輯的基礎上,尋找重點資料及特徵,分析不同模型對於資料的處理優勢,以此改進自己使用的模型,並將多種模型分步融合,提升結果。張建敏建議在設計整個處理方式和流程的時候考慮清楚大資料處理,以保證決賽階段換資料後的處理速度。
首屆演算法大賽獲獎選手慄強
第二枚彩蛋來自上屆亞軍“Raymone”團隊的大連理工演算法大神慄強。他已經是騰訊社交廣告的準員工,即將入職鵝廠。
針對此次大賽,慄強專門為大賽萌新們編寫了《騰訊廣告演算法大賽萌新指南》,分享了一些在比賽中遇到的問題和解決方案,涵蓋資料集劃分、特徵工程、資料規模、模型選擇和融合等重量級乾貨。悄悄劃重點:慄強的指南中也提到,在比賽中要理清實際業務背後的邏輯,多做功課,向老司機學習!
古人云,三人行必有我師,“到底對不隊”和“Raymone”團隊的通關經驗都告訴我們,善於學習,查閱資料,向有經驗的朋友請教,和其他選手們互通有無,共同進步。期待本屆選手發揮優良傳統,取得佳績!
點選“ 閱讀原文 ”,檢視騰訊演算法大賽;
↓↓↓
相關文章
- 班組管理技巧,拿走不謝!
- FMEA的編制方法,拿走不謝!
- 精益轉型行動指南,拿走不謝!
- 【面試題】2018年最全Java面試通關祕籍彙總集!面試題Java
- 精益生產管理培訓心得,拿走不謝!
- TPM管理專案6步法,拿走不謝!
- 線上故障的排查清單,運維拿走不謝!運維
- 全部python工具,新鮮出爐,拿走不謝,別客氣Python
- 拿走不謝,資料視覺化地圖製作教程!視覺化地圖
- 成為專業人士的3個步驟,拿走不謝!
- Python面試通關指南及獨家自學祕籍Python面試
- 天行健諮詢:DFMEA七步法,拿走不謝!
- 實驗設計(DOE)的正確使用方法,拿走不謝!
- 2020年 各大廠職級對標及總包,拿走不謝~
- 程式設計師鬥圖時最愛用哪些表情包?拿走不謝!程式設計師
- 30套酷炫視覺化大屏模板,不敲程式碼可直接套用,拿走不謝視覺化
- 5S在非製造單位中的使用方法,拿走不謝!
- 祕籍 | 機器學習資料集網址大全機器學習
- Pycharm使用祕籍PyCharm
- 人力資源年終資料分析報告怎麼寫?這份攻略拿走不謝
- RPG遊戲“關卡”&“戰鬥”設計祕籍遊戲
- 最新版本《千鋒Python專案全套影片合集》限時放送,需要拿走不謝Python
- 前端構建祕籍前端
- 前端新手祕籍丶前端
- React面試祕籍React面試
- 花了一個月精心準備30張視覺化大屏模板,可直接套用,拿走不謝視覺化
- 【好遊拆解】群英再度集結,能否逆轉終局?
- 波士頓諮詢:六大“通關祕籍”破局保險業數字化轉型
- 演算法面試通關40講總結演算法面試
- 零基礎入行IT怎麼拿高薪?這套千鋒UI設計全套影片合集拿走不謝高薪UI
- 做資料分析究竟要學哪些計算機知識?全都給你梳理好了,拿走不謝計算機
- 【免費下載facebook影片到手機相簿教學】拿走不謝!!騙你們我跪地三磕頭!
- 我珍藏的 Bash 祕籍
- Bash祕籍無私分享
- 消失的遊戲祕籍遊戲
- 英語背單詞祕籍
- 所謂的職場祕籍
- 智雲通CRM:銷售祕籍——如何擴充更多人脈資源?