Google(谷歌)
幾乎每年穀歌都會發表一些讓人驚豔的研究工作,包括之前的MapReduce、Word2Vec、BigTable,近期的BERT。資料探勘是Google研究的一個重點領域。2018年Google全球不同研究中心在資料探勘頂級國際會議KDD上一共發表了7篇全文(見下表,其中有三篇是與訪問學生一起合作的)。下面簡要解讀一下這幾篇文章。
該論文主要探討互動式推薦問題,提出一個兩階段的互動推薦方法。
傳統的推薦一般都是首先分析使用者興趣,然後基於使用者興趣和推薦資訊之間的匹配度進行推薦,然而這種方法很難精準捕獲使用者的實時興趣以及使用者查詢場景的真實意圖,互動式推薦是近年業界備受關注的問題。本質上這是一個Active Learning(主動學習)或者Online Learning(線上學習)問題。
該文提出一個基於RNN的問題(話題)自動生成方法(第一階段),也就是系統會根據使用者興趣自動生成話題,主動詢問使用者,然後在第二階段根據使用者反饋修正推薦結果,最後該方法在YouTube上進行了驗證。基於深度學習的話題生成可以大大提高最終的推薦結果。圖24給出了文章的主要思想和結果,其中左圖是系統主動提問的介面;右上圖是文章使用的基於RNN的話題自動生成模型(當然第二階段還有一個混合模型);右下圖是針對自動生成話題的評估結果。
自左至右:系統主動提問介面;話題自動生成模型RNN;提問話題評估結果
該論文提出了一個新的深度學習框架,大大提高了視訊理解的精度。
傳統的視訊分析的研究大多針對特定問題,比如視訊分類、視訊搜尋、個性化推薦等;這篇文章提出一個新的表示學習方法,把傳統的幾個問題都歸一化為統一表示的學習問題。最後在2億多個YouTube視訊資料上的實驗表明,無論視訊分類還是視訊推薦都比傳統方法好的多。本質上,這篇文章解決的視訊理解的問題可以用下圖的例子來解釋。
視訊推薦(左)和視訊搜尋(右)
從方法論來看,這篇文章的方法其實很簡單,首先對視訊的內容進行表示學習,具體來說用的是Inception-v3 網路,另一方面對音訊資訊也進行表示學習,這裡用了一個基於VGG的音訊模型和ResNet-50的網路結構。學習的時候使用了排序的Triplet loss,也就是給定三個視訊(Anchor、Positive、Negative),保證學習的時候Anchor視訊和Positive更相似,和Negative更不相似(Negative可以隨機選擇一個)。學習的時候把剛才單獨學習到的表示作為Triplet Loss function的輸入,然後學習每個視訊的混合表示(包括視訊和音訊)。混合策略可以有Early Fusion(右下圖中的第一個混合策略),或者Late Fusion(右下圖中的第一個混合策略)。
方法框架
最後在視訊推薦和視訊檢索方面的效果都很不錯。下圖是視訊推薦的評測結果以及在YouTube-8M資料集上的視訊檢索的例子。
Comparison in NDCG for various feature size with quantization.We observe that 4 bits per value are enough to almost preserve end-to-end recommendation performance.
Demonstration of related video retrieval with You Tube-8M Dataset.The left-most column is the query video,and other videos in the same row are top 4 most relevant videos found by our model .We show You Tube thumbnail,title,and revelance score we computed (in red italie).
《Anatomy of a Privacy-Safe Large-Scale Information Extraction System Over Email》
該論文也是一篇Applied Data Science Track的文章,這也是Google Gmail團隊最近幾年若干實用型文章中的一篇。
KDD2010的時候他們團隊就有一篇推薦相關收信人的文章,方法非常簡單、實用,而且很快該方法就迅速上線到系統,目前已經成為Gmail的標配。這次發表的文章是從Gmail的郵件內容中抽取結構化資訊,例如個人相關的賬單資訊,飛機行程資訊等。和傳統的資訊抽取不同,這裡的抽取更關鍵的是要保證規模以及抽取中可能遇到的隱私問題。下圖是整個抽取系統的架構圖。
The Juicer architecture.Details of the ML component are described in the text and depicted in Figure3.
這個全新的抽取架構叫做Juicer,核心的技術方面一個是把傳統的基於模板的方法進行了擴充套件,此外在抽取的時候加入了對隱私保護的考慮。例如具體抽取模板的時候使用了k-anonymity方法進行了匿名化,而且初始的標註資料是一個很小的由使用者自願拿出來的標註集。另外還有個很大的挑戰是資料質量,由於訓練資料比較少,所以資料的偏差性很大,系統通過一些觀察,比如偏差主要是傾向資深使用者,所以系統的訓練主要是用老/資深使用者的資料進行訓練,這一定程度上糾正了偏差問題。最後在幾個不同案例的抽取上,系統取得了很好的效果。
Precision on a sample of templates classified positive both for those templates that correspond to existing parsers and newly identified templates that do not correspond to existing parsers.
《Scalable k-Means Clustering via Lightweight Coresets》
這篇論文基本思想就是做一個快速k-means演算法或者說適用於大規模資料的k-means演算法。
具體思路是利用抽樣的方法從原始資料中抽樣出一個足夠小的子集(稱為Coresets),然後在這個Coresets上進行訓練,最後得到的結果和在大規模資料上的結果相當。文章理論證明了保證精度的情況下Coreset大小和資料集的特徵個數d以及聚類個資料k的乘積成正比。
由於是個理論文章,所以文章的實驗相對比較簡單,對比了兩種方法,一種是隨機抽樣(Uniform),還有一種是Lucic等人提出的經典演算法CS。幾個資料集還行,都相對比較小,看來作者真的不想做實驗室。最後的結果也表明作者提出的方法LWCS可以把誤差降低到16%,並且同時保持兩個數量級的加速度。下表給出了在這幾個資料集(KDD—KDD CUP2004裡面的一個匹配蛋白質序列的競賽、CSN—手機加速感測器的資料、Song—預測音樂的年份、RNA—預測RNA的序列對)上的實驗結果。
Relative error and speedup of different methods vs.FULL for k=100
《Optimal Distributed Submodular Optimization via Sketching》
這篇論文提出了一個針對Submodular優化的分散式演算法。
Submodular是數學、資料探勘、優化等很多領域中的一個共性問題,早先幾年在社交網路、尤其是影響力最大化傳播中使用非常多,當然傳統的數學問題就是Set Cover。Submodular比較流行是因為它雖然是一個NP難問題,但能找到一個非常簡單的貪婪演算法,並且能夠保證很好的最優效果的近似(大約54-66%)效果。這篇文章是提出一個分散式演算法,演算法保證了很好的空間複雜度、優化效果。下圖給出了不同submodular問題下文章方法和傳統方法在理論上的比較結果,這是一個非常有意思而且很Solid的結果。其中Dominating Set就是影響力最大化的基礎問題。
《Sequences of Sets》
論文提出一個隨機模型,用於挖掘這種和時間相關的隱含模型,模型能否挖掘出兩個方面的關聯,一個是序列中相鄰集合之間的關聯關係;一個是最近引數模型(使得模型更好描述最近的資訊)。
其實論文研究的問題是資料探勘裡面一個非常基礎的問題:給定一個集合序列,也就是序列中每個點都是一個集合,這個集合可以是比如社交網路中的使用者行為,當然連續兩個點的行為可能是一樣的,也可能非常不同,Sequence of sets裡面最重要的事情就是自動挖掘出裡面隱含的模式。
《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》
該論文是一篇基於神經網路的多工學習模型。本質上,這是個多工學習的擴充套件,多工學習在很多實習系統中都有應用,比如推薦。
最後在UCI的資料集上,這個方法相比傳統方法有一定的提升。下圖是一個實驗結果。
Performance on the first group of UCI Censusincome dataset
後來作者還在Google的大規模資料上進行了實驗,也取得一定的提升。
Engagement performance on the real large-scale recommendation system
Google(谷歌)2018年發表於KDD的論文列表
Q&R: A Two-Stage Approach toward Interactive Recommendation. 收錄會議:KDD’18 |
Collaborative Deep Metric Learning for Video Understanding. 收錄會議:KDD’18 |
Anatomy of a Privacy-Safe Large-Scale Information Extraction System Over Email. 收錄會議:KDD’18 |
Scalable k-Means Clustering via Lightweight Coresets. 收錄會議:KDD’18 |
Optimal Distributed Submodular Optimization via Sketching. 收錄會議:KDD’18 |
Sequences of Sets. 收錄會議:KDD’18 |
Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts. 收錄會議:KDD’18 |
Amazon
亞馬遜公司近幾年發展勢頭超級猛,前幾年華麗的轉身:從一個網上商店公司變為雲平臺公司再轉變到目前的人工智慧公司,亞馬遜也在資料探勘領域開始佔有一席,尤其是在人才網羅、開源、核心技術研發。2018年亞馬遜在資料探勘頂級國際會議KDD的Applied Data Science Track(應用資料科學Track)上一共發表了2篇全文(見下表),另外還有兩個應用科學的邀請報告。下面簡要解讀一下這幾篇文章。
《Buy It Again: Modeling Repeat Purchase Recommendations》
這篇文章提出一個Poisson-Gamma模型(PG)以及他的擴充套件版本(MPG),後來在離線資料上得到了一定的提升。
該論文是亞馬遜總部Seattle研究院的工作,問題非常簡單,就是研究網路使用者的重複購買行為,傳統研究一般是根據使用者興趣研究使用者未來可能購買什麼東西(大家骨子裡的思維方式都是使用者不會再購買已經買過的商品,比如電視機),然而事實上很多購買行為都是重複購買,比如買牙膏、或者買某些消費品,使用者反而傾向於買已經買過的商品,作者把這個問題叫做Repeat Purchase。
Lift in precision,recall,andnDCG for the ATD,PG,and MPG models at rank m=3 as compared to the baseline RCP model.
在真實的線上系統裡面的A/B測試,該方法也得到了很好的提升。這裡也能看出KDD的應用科學Track比較喜歡上線的工作。類似的工作在演算法本身上可能新意並不大,但在實際系統中效果很好,並且幫助到實際系統了,往往比較容易在KDD的ADS Track上發表。
《Open Tag: Open Attribute Value Extraction from Product Profiles》
這篇論文出用雙向LSTM來學習特徵,然後用CRF來提高抽取精度,然後又加上了一個Attention機制來提高可解釋性,最後還加上了一個主動學習方法來降低標註工作量。
這篇論文是亞馬遜的實習生做的。做的是個老問題,就是從產品頁面抽取產品描述的屬性值,但不同的是這裡抽取的屬性值可能是之前沒有出現(定義)過的。下圖描述了整個模型框架。總的來說該架構很好的融合了現有的一些技術。
最後也取得不錯的實驗結果。
Performance comparison of different models on attribute extraction for different product profiles and datdsets.OpenTag outperforms other state-of-the-art NERsystems [11,13,15,17] based on BiLSTM-CRF.
《Challenges and Innovations in Building a Product Knowledge Graph》
這個報告主要講了產品知識圖譜構建的挑戰,包括概念抽取、知識整合、重要知識概念發現以及如何結合使用者的知識圖譜。
該論文是亞馬遜Xin Luna Dong的邀請報告。KDD每年ADS Track都會專門邀請一些工業界的講者來做報告。Luna以前在Google做過Google的知識圖譜,目前在亞馬遜負責知識圖譜專案。
《Algorithms, Data, Hardware and Tools - a Perfect Storm》
這個報告主要講了超大規模資料時代,統計機器學習面臨的一系列來自演算法複雜度、硬體的挑戰以及未來的機遇。
Amazon2018年發表於KDD的論文列表
Buy It Again: Modeling Repeat Purchase Recommendations. 收錄會議:KDD’18 |
OpenTag: Open Attribute Value Extraction from Product Profiles. 收錄會議:KDD’18 |
Challenges and Innovations in Building a Product Knowledge Graph. 收錄會議:KDD’18 應用科學邀請報告 |
Algorithms, Data, Hardware and Tools - a Perfect Storm. 收錄會議:KDD’18 應用科學邀請報告 |
Microsoft
微軟是老牌論文王國,一直以來都在學術界特別活躍,因此在KDD上每年和微軟有關的論文非常多,因此這裡只統計了微軟作為第一作者的文章。2018年在資料探勘頂級國際會議KDD上一共發表了6篇全文(見下表),另外還有一個應用科學的邀請報告,這些文章和報告都更多的從大資料的角度在思考如何更有效,更快速的分析。下面簡要解讀一下這幾篇文章。
《Applying the Delta Method in Metric Analytics: A Practical Guide with Novel Ideas》
該論文提出一個在大資料環境下如何做演算法效果評估的Delta方法。
該論文也是一篇Applied Data Science的文章,不過這篇文章的思想還是很有意思的。論文基本想法是基於大數定律,即中心極限定律:如果樣本滿足獨立同分布,即每個樣本有相同的均值和方差,則當樣本個數趨於無窮大的時候,所有樣本的均值偏差滿足正態分佈。
《Web-Scale Responsive Visual Search at Bing》
該論文主要介紹了在Microsoft Bing裡面上線的一個視覺化搜尋。
該系統已經索引了數十億圖片,每個圖片也預先抽取了上千特徵,針對使用者定製的視覺化搜尋可以做到200毫秒。演算法則使用了DNN來抽取特徵,然後用N-nearest方法進行匹配。從應用的角度,這還是一個很有意思的工作。
《BigIN4: Instant, Interactive Insight Identification for Multi-Dimensional Big Data》
該論文介紹了一個從高維大資料中通過互動方式進行快速查詢的方法,BigIN4可以在data cube中做到快速查詢(比傳統抽樣方法快50倍)。
《RapidScorer: Fast Tree Ensemble Evaluation by Maximizing Compactness in Data Level Parallelization》
論文提出一個樹狀模型的整合演算法,並將其應用於搜尋引擎。論文的方法是在已有方法RapidScore的基礎上進行擴充套件的,本質上就是決策樹的模型合成。
最後在兩個公開資料集MSN合AdsCTR上進行了驗證。效果比XGBoost等演算法都要好。
《Recurrent Binary Embedding for GPU-Enabled Exhaustive Retrieval from Billion-Scale Semantic Vectors》
該論文提出一個Recurrent Binary Embedding(RBE)方法來學習搜尋場景下物件的低維表示,該方法最大的特色是可以增量的在二進位制的表示中加入二進位制殘差向量。該模型可以很快速的在超大規模搜尋系統中快速定位最相關的物件。
《Efficient Attribute Recommendation with Probabilistic Guarantee》
論文介紹了大資料分析裡面一個非常基礎的問題,就是給定兩個資料集,如何找到這兩個集合中,差異最大的屬性。
《Planet-Scale Land Cover Classification with FPGAs》
論文主要介紹了微軟利用衛星圖片來做的大資料分析,建立了美國農業影像大資料庫,從模型的角度實現了基於DNN的模型,在架構方面,比較有意思的是該工作使用了基於FPGAs的深度學習架構。
本報告是一個受邀的工業界報告。報告人是微軟商業智慧部門的CTO Joseph Sirosh博士。Joseph Sirosh博士以前是Amazon的全球創新平臺的副總裁。該工作可以實現10分鐘內處理20T的高清圖片,大約每秒40多萬張圖片。
Microsoft2018年發表於KDD的論文列表
Applying the Delta Method in Metric Analytics: A Practical Guide with Novel Ideas. 收錄會議:KDD’18 |
Web-Scale Responsive Visual Search at Bing. 收錄會議:KDD’18 |
BigIN4: Instant, Interactive Insight Identification for Multi-Dimensional Big Data. 收錄會議:KDD’18 |
RapidScorer: Fast Tree Ensemble Evaluation by Maximizing Compactness in Data Level Parallelization. 收錄會議:KDD’18 |
Recurrent Binary Embedding for GPU-Enabled Exhaustive Retrieval from Billion-Scale Semantic Vectors. 收錄會議:KDD’18 |
Efficient Attribute Recommendation with Probabilistic Guarantee. 收錄會議:KDD’18 |
Planet-Scale Land Cover Classification with FPGAs. 收錄會議:KDD’18 應用科學邀請報告 |
Facebook 2018年在資料探勘頂級國際會議KDD上一共發表了2篇文章(見下表),這兩篇文章都是發表在KDD的Applied Data Science Track。下面簡要解讀一下這兩篇文章。
《Rosetta: Large Scale System for Text Detection and Recognition in Images》
這篇文章介紹了Facebook的影像文字識別OCR系統Rosetta。
Facebook每天使用者都上傳大量圖片,從這些圖片中識別出文字可以幫助提高搜尋和推薦效率。這裡面的挑戰主要是兩個,一個是圖片中的文字字型、文字語言多樣,而且還可能有很多自定義詞以及一些特殊的字元,例如網頁連結等;另一個挑戰是每天需要處理大量的圖片。Rosetta的目標是做到實時處理(識別圖片中的文字)使用者上傳的圖片。從演算法來說,Rosetta使用了一個兩階段的識別策略,第一階段是用Faster-RCNN快速識別圖片中包含文字的區域,第二階段則是使用了一個全卷積網路進行文字識別。下圖描述Rosetta的兩階段抽取架構。
《A Real-time Framework for Detecting Efficiency Regressions in a Globally Distributed Codebase》
該論文探討了一個Facebook非常實際的線上運營問題,當code改變的時候,哪些code改變會引起嚴重的系統效率問題。Facebook每月的月活使用者超過20億,而且在Facebook平臺上執行了大量的複雜系統,包括應用程式等。
因此,如何保證線上程式碼改變可能帶來的效率下降成為一個挑戰。從資料探勘的角度,其本質問題是一個實時資料的異常檢測問題,傳統的實時資料異常檢測包括三種方法:點異常檢測(突發異常)、模式異常(一組點的連續異常)、持續點異常(異常點逐漸變化,導致最終差異較大)。這三個問題其實都有很多大量的研究,當然從異常點檢測本身來說,其關鍵挑戰是定義什麼是異常。這篇文章主要描述了Facebook的持續點異常檢測問題,其解決思路是使用了一個CUSUM演算法進行持續點異常,最後進行了一個可擴充套件的實現。
Facebook2018年發表於KDD的論文列表
Rosetta: Large Scale System for Text Detection and Recognition in Images. 收錄會議:KDD’18 |
A Real-time Framework for Detecting Efficiency Regressions in a Globally Distributed Codebase. 收錄會議:KDD’18 |