近日,KDD Cup 2018 的比賽結果出爐,阿里媽媽演算法專家胡可與來自微軟、北大的兩位隊友組成的“getmax”隊成為唯一一支獲得全場三項大獎的隊伍。

作為全球資料探勘領域最有影響力的賽事,KDD Cup比賽由ACM協會的國際頂級會議SIGKDD舉辦,自1997年以來每年舉辦一次。該比賽一直以來都強調在實際場景中的應用性,今年的賽題是主辦方提供中國北京和英國倫敦的天氣資料,比賽選手需要以此來預測未來48小時內PM2.5\PM10\O3濃度,賽題本身對應對惡劣環境、改善人類生存有著重要意義。

值得一提的是,胡可就職於阿里媽媽搜尋直通車演算法團隊,他主要的工作內容是做廣告排序演算法,如應用深度學習模型解決業務問題,團隊也在應用並優化多種深度學習模型,其日常工作中積累的深度學習經驗在比賽中起到了關鍵作用。

斬獲三項大獎的祕密:空氣預報特徵+深度學習模型解決空氣預測難題

與往年只有最終成績獎項不同,KDD Cup 2018計入了比賽過程中的成績並設立了三項大獎——“The General Track”、“最後10天專項獎”、“最佳長期預測獎”,從三個維度來獎勵比賽中表現突出的隊伍。而“getmax”也因全面而突出的表現,從4000多個參賽隊伍中脫穎而出,成為唯一一個斬獲三項大獎的隊伍,分別取得一項亞軍、兩項冠軍的成績。

本屆賽題十分獨特,空氣質量預測不僅具有規律性弱、不穩定、易突變的特點,並且因為要預測未來48小時中的每個小時,以及北京/倫敦城市內幾十個預測地點,建模時間序列以及地點拓撲關係給機器學習模型帶來挑戰。

在胡可看來,最終的成績主要來自於特徵與模型兩方面的優化。

特徵方面:

發現風速和風向是長期預測與突變預測的關鍵,所以在比賽中在時間與空間維度細化了天氣預報的特徵,並且運用噪音處理與分箱平滑、以及神經網路結構調整解決天氣預報訓練資料缺失引起的不一致問題。

模型方面:

除運用細粒度特徵工程的樹模型外,也運用深度學習模型進行相對自動的特徵間以及序列間關係挖掘。並且針對長時間序列問題的特點,對DNN網路與RNN網路分別進行了優化調整,解決了序列間預測值接近、長序列預測值不穩定等問題。

之所以會用以上的思路解決問題,胡可說,工作場景起到了在實際問題中積累思路與技術的作用,“對深度學習模型的應用是前面隊伍排名區分的關鍵,在比賽中應用的DNN/RNN模型在自己工作中的廣告領域有很多探索。”

阿里媽媽打造Ad Tech:用技術進步驅動營銷

“比賽中的有些開源解決方案,具有與實際工業界互相促進的作用。”胡可對演算法比賽很感興趣,他也是去年KDD Cup 的冠軍獲得者。

之所以活躍於全球頂級的演算法大賽中,胡可表示,KDD Cup是工業界和學術界都非常關注的一個比賽,也產出過很多對業界有影響的技術,比如KDD Cup 2012 產出的XGBOOST和FFM模型對工業界產生了很大的推進作用,而在工業界有了一定應用沉澱後,又不斷地對這兩種模型進行優化。

他也希望能夠向這個方向努力,預測環境問題與廣告問題看似場景不同,但技術本身是相通的,工作和比賽都是在針對具體問題運用機器學習相關演算法進行建模與優化。在演算法比賽中一方面將工作中熟悉的技術應用於各種實際問題,另一方面則加深對技術的理解並且將新的理解應用到未來工作中。

這也正是阿里媽媽技術團隊所倡導的,作為阿里巴巴旗下的大資料營銷平臺,阿里媽媽在今年提出了打造營銷科技Ad Tech的品牌戰略,在其原有業務的探索基礎上,加深與學術界的交流,阿里媽媽每年都有一些新論文入選到IJCAI、WWW、AAAI等技術領域的國際頂級會議上,今年也有論文入選了此次SIGKDD會議,阿里集團共有14篇文章被收錄;同時,它也通過主辦演算法大賽來增進演算法交流,例如攜手國際人工智慧的頂級盛會IJCAI以及阿里雲天池平臺,共同舉辦的IJCAI 2018阿里媽媽國際廣告演算法大賽。

在阿里媽媽Ad Tech的理念之下,通過技術的不斷進步,來驅動廣告場景的持續優化,理想正在逐步照進現實。