這是陶明第三次參加騰訊廣告演算法大賽。他來自吉林大學,這一賽事恰好也貫穿了他的研究生生涯。他從研一開始參加第一屆大賽,到如今他已研三畢業,騰訊廣告演算法大賽也步入了第三年。
除了透過大賽交流學習外,驗證自身對於演算法的思考成為他參加本次廣告大賽的重要因素。談起這三年「打比賽」的經歷他深有感觸:最開始選手都採用相類似的模型,如今模型差異與多樣化越來越明顯;最開始大家主要使用 XGBoost 機器學習演算法做預測,而如今更多使用效果更優的 LightGBM 演算法,同時深度神經網路也成為選手嘗試的物件。
陶明也是騰訊廣告演算法大賽的「常勝將軍」,第一屆比賽團隊斬獲季軍,第二屆團隊獲得冠軍,今年第三屆又摘得季軍,可謂碩果累累,小有收穫。或許正是大賽所帶來的積澱與成就感,他也選擇以一名演算法工程師的身份作為自身職場的開端。
而在騰訊廣告演算法大賽的背後,騰訊廣告正試圖以大賽為紐帶,連線工業界和學術界,由騰訊廣告提供經過脫敏處理的實際業務資料和真實應用場景,結合學術界的技術探索,從而推動騰訊廣告乃至引領整個網際網路廣告行業的發展。
1. 從真實業務場景出發
在網際網路廣告中,廣告主十分關心一件事——如何用盡可能少的成本達到預期的投放效果。此時,廣告曝光預估就顯得尤為重要,它是一種更直觀的投入產出量化參考工具,廣告主可以根據曝光預估結果提前調整廣告投放出價、定向、時段等設定,制定合適的廣告投放策略。
更準確的廣告曝光預估對廣告主而言無疑是一把「利器」,能夠幫助廣告主達成更好的傳播效果,並節省試錯的時間和金錢成本。
但要把廣告曝光預估做到極致,對於行業而言並非易事。以騰訊廣告為例,它涉及社交、遊戲、音樂、影片、新聞等多元複雜的場景,每個場景都有較大的差異,以騰訊新聞為例,這一產品具有很強的媒體屬性,往往一個熱點新聞發生後,形成使用者人群的流量波峰,進而導致不同時間段內流量有較大的波動,廣告曝光的量級極有可能產生巨大變化,這都給預估工作帶來很大挑戰。
因此,騰訊廣告從實際業務出發,將廣告曝光預估作為本屆廣告演算法大賽的考題,開放源於業務的脫敏廣告資料,並提供算力支援,以期在學術界點燃星星之火,透過 AI 和機器學習解決實際問題。這一點與前兩屆比賽可謂一脈相承。
騰訊廣告副總裁羅徵解釋,「廣告曝光預估是一個重要工具,並且這也是廣告主們最關心的工具之一,曝光預估準確能對廣告投放的操作效率有很大提升,因此我們選擇了這一內容作為今年的賽題。」
要想打造一個預測模型,首先要了解騰訊廣告的業務邏輯。
騰訊效果廣告採用的是 GSP(Generalized Second-Price)競價機制,廣告的實際曝光主要取決於兩個因素,廣告的流量覆蓋大小和在競爭廣告中的相對競爭力水平。
其中,廣告的流量覆蓋取決於廣告的人群定向(匹配對應特徵的人群數量)、廣告素材尺寸(匹配的廣告位)以及投放時段、預算等。而廣告的競爭力水平主要受出價、廣告質量、使用者體驗等因素的影響。
綜上,前者決定廣告能參與競爭的次數以及競爭物件,後者決定在每次競爭中的勝出機率。二者最終決定廣告每天的曝光量。
而對於騰訊廣告演算法大賽的參賽選手而言,他們首先需要將廣告業務語言來轉化為可量化的數值指標,即將廣告設定的人群定向、投放時段、選擇的流量版位、競價方式、出價等轉化為描述覆蓋使用者人群大小、競爭環境激烈程度以及自身競爭力相對水平等數值指標。
選手透過歷史中各類廣告在競價系統中的曝光歷史進行訓練,以學習出競爭環境的變化趨勢以及廣告競爭力水平和最終曝光效果的隱藏聯絡,達到預估廣告未來曝光的目標。
一位闖入決賽圈的統計學研一學生表示,「比賽中我們遇到的最大挑戰是對廣告業務的理解,另外因為非科班出身,我們在演算法上的基礎較弱。」
儘管各個參賽團隊面臨的問題不同,但對於業務場景的理解,對於演算法模型的思考都是比賽考核的重點。此外,大賽除了常規的準確性指標考核外,還加入出價單調性相關的評估指標,以此凸顯對實際業務場景的重視。
2. 從象牙塔走向練兵場
本屆騰訊廣告演算法大賽共吸引了 1 萬餘名海內外選手參與,經過近 3 個月的角逐,10 支隊伍進入決賽現場,在騰訊濱海大廈展開最後 PK。
機器之心發現,進入決賽的選手多在研究生階段。頗為有趣的是,本屆比賽除了學生選手外,還有多個工業界團隊參與,學界工業界一起打擂。
透過 10 支隊伍的現場答辯展示,我們看到各個隊伍基於對賽題的理解,制定相應的策略,進而提取特徵,搭建自身的模型。今年決賽隊伍使用模型的共性是,大多數團隊都使用了 LightGBM 機器學習模型,以及深度神經網路(NN),並且機器學習的權重會更高,不同之處在於在主流框架基礎上,各個團隊探索了多樣化的演算法應用。
來自甜橙金融的工業界團隊並沒有使用流行的 NN 模型,他們主要基於 LightGBM 模型進行預測,也取得了決賽第四的成績。
決賽第七團隊「人工智障」的一位選手分享道,最開始他一直在探索 NN 模型在廣告曝光預估中的應用,但嘗試過後發現 NN 模型的效果並不如隊友用 LightGBM 做出的效果,最終他們透過近 3:7 的權重進行模型融合,取得了不錯的效果。
最為值得關注的是,由哈爾濱工業大學、中山大學、武漢大學組成的三人團隊「魚遇雨欲語與餘」(有趣的名字),不但在複賽中一路保持領先,更是獲得決賽的和答辯單項獎雙料冠軍。模型方面,除了使用 LightGBM 外,他們使用了 Word2Vec 和 DeepWalk 無監督學習的神經網路,此外他們還將模型與規則融合,進一步最佳化了廣告預測效果。
他們的一個創新點在於,透過基於 Key-Value Memory 的浮點數對映成向量的方法,相較於直接使用浮點數,保留了更多語義資訊。
伊利諾伊大學芝加哥分校傑出教授俞士綸(Philip S. Yu)點評道,冠軍團隊在技術上面做的最好,他們綜合靈活使用了多維度的資料,這類似他提倡的「廣度學習」。
在資料探勘方面,廣度學習提倡不僅要挖得深,還要挖得廣,重點是將不同種類的大型資訊融合在一起,並在一個統一的分析中,對融合資訊進行跨維度的資料探勘。
俞教授稱,「我們在解決實際問題時,第一個就是要決定什麼資料是有關的,這些資料如何結合在一起,用這樣的(廣度學習)方法來解決問題。」
來自亞利桑那州立大學的劉歡教授(Huan Liu)也表示,透過此次演算法大賽,他看到了中國在資料探勘領域不斷取得的領先成果和未來巨大的發展空間。
在本次比賽中,他非常欣喜地看到參賽選手把社交媒體資料作為應用物件。劉教授認為,社交媒體蘊含著巨大的資料量,除了被應用於演算法競賽當中,同樣也是各種真實場景中實踐應用和研究的物件。他很期待在場的選手和同樣喜愛演算法的年輕人們能利用資料來解決真實世界中的問題。
3. 從練兵場到學界業界融合
可以看到,廣告曝光預估這一實際業務問題,為 AI 與機器學習提供了很好的實戰平臺。然而廣告曝光預估只是騰訊廣告龐大業務的冰山一角。
據機器之心瞭解,藉助覆蓋全國 10 億+網民的騰訊產品體系,騰訊廣告的資源位覆蓋微信、QQ、新聞、遊戲、影片等眾多場景,支撐日均百億級曝光,它也是騰訊公司內部資料處理量要求最高的業務之一。
簡言之,騰訊廣告是大規模 AI 技術發展的最重要場景之一。然而騰訊的社交與遊戲太過搶眼,廣告業務一直處於悶聲做事的狀態,而實際上它是一個被忽視的 AI「練兵場」。在騰訊 2019 Q1 的財報中,網路廣告業務的收入同比增長 25% 至人民幣 133.77 億元。社交及其他廣告收入增長 34% 至人民幣 98.98 億元,並且增長穩健。
騰訊廣告副總裁羅徵談道,舉辦騰訊廣告演算法大賽的其中一個重要目的,也是希望推動更多的演算法達人一起參與廣告業務的技術探討中,推動交流和進步。
透過大賽這樣一個紐帶,騰訊廣告正在推動工業界和學術界結合。一方面騰訊廣告提供真實應用場景和經過脫敏的業務資料,為學術界指明研究方向,推動 AI 與機器學習技術在廣告中的研究;另一方面參考學術界的研究成果,騰訊廣告能夠進一步用技術解決實際問題,推動廣告業務效率的提升,從而形成一個正向迴圈。
俞士綸教授也表示,高校往往缺乏大規模的研究資料,騰訊廣告提供的脫敏資料,能夠讓學生用資料探勘或機器學習的方法解決實際問題,真正做到學以致用。
本次決賽現場,騰訊廣告高階應用研究員石瑞超也展示了廣告場景下的 AI 視覺演算法應用。AI 可以應用在廣告生成、廣告稽核、廣告投放等領域,從而提升效率。以廣告稽核為例,騰訊廣告每天需要稽核的廣告數達 10 萬+,而相關的稽核規則有 80 條之多,繁瑣複雜的工作量亟需透過技術力量來減輕人工負擔。將 AI 用於智慧稽核,騰訊廣告可以高效進行侵權識別、違規識別等,能夠真正提升稽核效率和誤審率。
羅徵還舉例道,騰訊廣告在日常工作中也有一些有趣的研究,比如用 AI 來自動評估廣告創意的美感,這樣可以在滿足廣告主需求的同時,提升使用者的「審美體驗」。
而針對學術界,目前騰訊廣告大賽已經沉澱下每次大賽面向學生群體提供的脫敏資料集,可以提供給非盈利的學術機構進行研究。
羅徵也表示,考慮到資料集對於學術界和工業界探索技術進步的重要意義,這也成了一件值得期待的事情。
注:陶明為化名