下面首先以阿里巴巴、騰訊、百度為例簡單介紹一下國內工業界在資料探勘領域頂級國際會議KDD上發表的研究工作。
阿里巴巴(Alibaba)
阿里巴巴在電子商務方面做了大量的資料探勘研究。尤其是在表示學習和增強學習做了幾個很有意思的工作。2018年阿里巴巴在資料探勘頂級國際會議KDD上作為第一作者單位一共發表了8篇論文,我們將先為大家簡要解讀其中的部分文章。(論文列表附在其後,表裡還包括了部分2017和2016文章)
《Deep Reinforcement Learning for Sponsored Search Real-time Bidding》
該論文介紹了阿里巴巴展示廣告裡面的實時投標系統的設計與實現。
以前的系統一般是通過廣告搜尋來做的,包括定義大量的複雜特徵,通過特徵學習來實現。然而這樣的系統很難實現遷移。這篇文章主要介紹了一個深度增強學習方法可以有效的在複雜環境下進行自學習。下圖給出了該系統的總體設計。系統底層還是一個搜尋系統,再用增強學習方法通過TensorFlow進行學習。
《Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application》
該論文在搜尋結果排序方面提出了在考慮利用不同步排序結果的聯絡的基礎上,通過利用增強學習實現最大化預期累積獎勵的排序策略。文章中正式定義了search session Markov decision process(SSMDP)的概念並以此表示了電子商務搜尋場景下的多步排序問題。
在此基礎上,作者通過證明最大化累積回報的必要性從而證明了不同步驟的排序之間是存在緊密的聯絡,而並非是相互獨立的;作者提出了利用DPG-FBE(deterministic policy gradient with full backup estimation)演算法來解決高回報差異以及不平衡的回報分配問題,實現了SSMDP下的最優排序策略。
上圖中表示了在策略π下,使用者進行商品搜尋時的三種行為及對應行為發生的概率:購買(B,b)、繼續瀏覽(C,c)、離開(L,l),瀏覽專案歷史(h)及對應的狀態轉移,並定義了狀態值函式。
《Visual Search at Alibaba》
該論文介紹的是阿里巴巴的一個視覺化搜尋工作,基本使用場景是使用者可以實現手機端或者桌面端的基於圖片的搜尋。如下圖的例子,當使用者選擇一個圖片的時候,系統自動識別圖片中的實體物件,然後搜尋相似或者相關的圖片。
在具體實現方面,阿里巴巴採用詞典和特徵相結合的方法,首先離線對所有圖片進行表示學習(表示學習的時候同時利用了圖片內容資訊和物件識別結果),然後構建詞典,也就是將圖片對映到詞典中。在線上系統中通過CNN進行圖片內的物件識別和表示學習。最後和已有的索引進行匹配。
下圖給出了視覺化搜尋系統的離線學習和在線搜尋系統的總體架構。具體實現方法是結合分類建模和近鄰搜尋技術減小了搜尋範圍,實現了更加精準有效的類別預測方法。利用softmaxloss函式對GoogLeNet V1網路進行影象分類訓練,得到每一種影象類別的概率;通過檢索最相似的Top30影象,並對每個影象進行加權計算概率;最後,將以上的到的兩個概率進行加權平均,得到最終結果。
此外,通過弱監督學習方式並基於深度CNN架構,實現了目標檢測和特徵表示的聯合學習;通過直接使用使用者的點選影象的行為作為樣本來訓練模型。最後通過二值特徵索引和重排序技術,實現了使用者移動端毫秒級別的響應。
《Perceive Your Users in Depth:Learning Universal User Representations from Multiple E-commerce Tasks》
在推薦演算法方面,Yabo Ni等人提出通過多工的綜合分析學習來了解使用者的普遍行為,實現更精確的預測和推薦。
- 文章提出了一種基於多工學習的表示學習,DUPN(Deep User Perception Network),該網路可以從多個任務中生成一種普遍的使用者行為表示,這種表示能夠從使用者的複雜行為中提取主要特徵,並可以被用到其他任務中;
文章提出了一種新的基於注意力機制網路和RNN的深度架構,將電子商務中使用者和專案建模為序列行為,並利用一種新的上下文行為的注意力機制來整合相應的內容和行為資訊來使得能夠更好地學習使用者的行為向量。
模型將使用者行為序列作為輸入,並將每個行為傳遞到一個嵌入的向量空間。然後,使用LSTM和Attention-based Polling來獲得一個使用者表示向量。LSTM幫助建模使用者行為序列,注意力網幫助從序列中提取不同權重的資訊。不同人物之間可以共享這些使用者表示。系統維護一個item集。對給定使用者的查詢,系統檢索標題中包含查詢詞的條目,對條目進行排序,並向使用者提供rank最靠前的list。
《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》
該文介紹了Jizhe Wang等人和香港科大的Huan Zhao等人在十億級的電子商務網路中商品的表示學習(見上圖)。他們從使用者的行為歷史中構建了一個專案圖,並用提出用圖嵌入演算法來學習圖中專案的表示向量,從而得到一個基於計算相似性得到的專案集。
在圖嵌入演算法方面,在Base Graph Embedding(BGE)的基礎上,他們提出Graph Embedding with Side Information(GES)演算法,通過利用輔助資訊來解決與其他商品聯絡較少的商品問題,並進一步提出了Enhanced Graph Embedding with Side Information(EGES),通過加權機制來實現對不同輔助資訊的有效利用。此外,為實現十億級別的使用者和商品計算,他們將該圖嵌入系統部署在了Xtensorflow(XTF)上。
上圖中SI代表輔助資訊,“SI 0”為商品本身。在實際中情況中
- Sparse features 常常是商品和不同輔助資訊的one-hot-encoder向量集
- Dense Embedding是商品的表示和相應的SI
- Hidden representation 是一個商品和其對應的輔助資訊的嵌入集
《Cascade Ranking for Operational E-commerce Search》
該論文提出了適用於運營電子商務搜尋的多級級聯排名模型(CLOES)。該模型綜合考慮了搜尋精確度、計算成本、搜尋延遲以及搜尋結果規模,並且在降低計算成本的同時提高了搜尋的精確度。
這是第一次將級聯模型用於大型電子商務搜尋的公共研究(見上圖)。該模型在級聯的前期階段通過利用簡單並且代價較小的特徵和模型過濾掉一些相關性較低的專案;之後的階段利用更加精確但是更復雜的特徵和模型來實現更加精確的排名,並提出了修改的邏輯迴歸補償函式來處理前一階段“數量過少”和“搜尋延遲過高”的情況。在文中,邏輯sigmoid函式被用作單階段分類器。2017年用於淘寶的3-stage級聯模型在保證搜尋精確度的情況下能夠降低20%的cpu消耗。
《KunPeng: Parameter Serverbased Distributed Learning Systems and Its Applications in Alibaba and AntFinancial》
該論文介紹了螞蟻金服提出了基於引數伺服器的分散式學習系統“鯤鵬”。“鯤鵬”使得現有的一系列演算法在十億級別的樣本和特徵資料上的效能及效率有了極大的提高。
鯤鵬的總體架構的核心模組包括以下幾部分:Server nodes:對模型做分片儲存、Worker nodes:對訓練資料做分片並計算、Coordinator:控制演算法整體流程,如初始化,迭代,終止等、ML Bridge:使用指令碼形式的工作流對資料進行預處理、PS-Core:核心的引數伺服器元件 (servers/workers/coordinator)、Fuxi:監控所有機器執行狀態,必要時進行容錯。上圖給出了鯤鵬的總體架構。
鯤鵬的使用流程對使用者是完全透明的,而且開發者能夠通過非常非常簡單的程式碼實現複雜的通訊和排程過程。鯤鵬架構使得常用的機器學習演算法的大規模化成為了可能,截止目前,已經有眾多機器學習演算法在鯤鵬上得以實現和應用,包括但不限於LR,FTRL,MART,FM,HashMF,DSSM,DNN,LDA。
該論文在文字分類方面提出了conv-RNN框架。Conv-RNN綜合使用和CNN和RNN並且整合了兩個模型在不同方面的優點—— RNN 模型對不定長跨度的上下文依賴的編碼能以及CNN 模型中常用的最大池化機制,增強了機器學習和分類的能力。
conv-RNN結構:Word embedding層:原始輸入句子S中的詞對映為對應的詞向量,並用矩陣來表示句子;Bi-RNN層:雙向RNN層,得到正向的hidden state 和反向的hidden state;Convolution layer:在RNN層得到的hidden state的基礎上進行卷積,使用ReLU作為啟用函式;Pooling層:用max-pooing作為池化函式,對每個卷積得到的向量進行max-pooling操作得到其中最大值。則生成對應的輸入向量。
文中提出了基於句子分類的conv-RNN,在conv-RNN 之上加一個聯合層,將conv-RNN得到的Xq以及之前的得到的兩個hidden state向量拼接起來作為輸入文字的最終表示。最後經過softmax層將向量表示對映到各個類別上,完成分類預測。
在 conv-RNN 語義編碼演算法基礎之上,進一步提出了一種新的問答匹配模型。此外,在該模型中,還引入了一種"權值共享"機制以及 attention 方法,用以進一步提升 question-answer 匹配效果。
阿里巴巴近兩年發表於KDD的論文列表
《Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application》 收錄會議:KDD’18 |
《Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks》 收錄會議:KDD’18 |
《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》 收錄會議:KDD’18 |
《Visual Search at Alibaba》 收錄會議:KDD’18 |
《Deep Reinforcement Learning for Sponsored Search Real-time Bidding》 收錄會議:KDD’18 |
《Learning and Transferring IDs Representation in E-commerce》 收錄會議:KDD’18 |
《Deep Interest Network for Click-Through Rate Prediction》 收錄會議:KDD’18 |
《Learning Tree-based Deep Model for Recommender Systems》 收錄會議:KDD’18 |
《Cascade Ranking for Operational E-commerce Search》 收錄會議:KDD’17 |
《KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial》 收錄會議:KDD’17 |
《A Hybrid Framework for Text Modeling with Convolutional RNN》 收錄會議:KDD’17 |
《Local Algorithm for User Action Prediction Towards Display Ads》 收錄會議:KDD’17 |
《Optimized Cost per Click in Taobao Display Advertising》 收錄會議:KDD’17 |
騰訊(Tencent)
2018年騰訊在資料探勘頂級國際會議KDD上作為第一作者單位一共發表了2篇論文,下面簡要解讀其中的部分文章。(論文列表附在其後,表裡還包括了部分合作文章)
該論文提出利用多通道資訊交叉進行文字匹配模型MIX。MIX融合了CNNs和注意力機制,通過提取多個粒度的特徵得到MIX表示的文字片段,然後通過semetic information channel 和 structutal information channel(用作attention mechanism)進行文字匹配得到精確的匹配結果。
上圖給出了多粒度建模的總體框架。具體方法分為三步:
Step1:句子在不同的粒度被分割成不同的片段;
Step2:在attention units部分,通過提取語法資訊來設計attention channels中的注意矩陣。
Step3:如圖weighed channels 和2D-convolution部分所示,通過交叉區域性匹配通道和注意通道,提取顯著特徵組合進行區域性匹配。
《On the Generative Discovery of Structured Medical Knowledge》
在智慧醫療領域,芝加哥大學的Chenwei Zhang和騰訊的Yaling Li等人引入了一種生成式的視角來研究關係醫學實體對發現問題,旨在在最小化資料需求的同時,擴大高質量而又新穎的結構化新醫學知識的規模。
他們提出了Conditional Relationship Variational Autoencoder(CRVAE)模型,在沒有複雜特徵工程的情況下,通過單獨地從不同維度表達的實體對學習共性,該模型可以生成性的發現特定醫療關係下的實體對,並在模型編碼的過程中獲得關係增強的實體表示。
編碼器接收關係醫療實體對和關係指示作為輸入,通過訓練來加強醫療實體對的表示,並編碼對每一種醫療關係的不同種實體對錶示,作為潛在空間。解碼器進行共同訓練,並重建實體對。生成器與解碼器結構相同,然而,它並沒有重建輸入中給出的關係醫療實體對,而是直接從學習到的潛在變數分佈中抽取樣本,為特定關係生成有意義的醫療關係。
騰訊2018年發表於KDD的論文列表
《MIX: Multi-Channel Information Crossing for Text Matching》 收錄會議:KDD’18 |
《On the Generative Discovery of Structured Medical Knowledge》 收錄會議:KDD’18 |
《An Efficient Two-Layer Mechanism for Privacy-Preserving Truth Discovery》 收錄會議:KDD’18 |
百度(Baidu)
2018年百度在資料探勘頂級國際會議KDD上作為第一作者單位一共發表了2篇論文。下面簡要解讀其中的部分文章。(論文列表附在其後,表裡還包括了2017年的文章)
《Du-Parking: Spatio-Temporal Big Data Tells You Real time Parking Availability》
該論文提出了基於時間和空間大資料的實時停車可用性方案Du-Parking。該方案是一種基於DNN的學習方法,它由三個主要部分組成,分別是建模速度、時間和一般影響,通過利用線上感測器以及多種資料庫的結合並對時間和空間特徵有區別的處理,來提供實時停車可用性資訊,上圖給出了整個框架圖。
Grid Computing:該元件是一個離線分散式系統,主要有三種功能:
- 基本靜態特徵提取:POI相關特性被從百度地圖的資料倉儲中提取出來用於訓練和預測。
- sample processing: 系統將每30分鐘從百度地圖獲取的實時停車場佔用資料轉換為標記樣本資料。儲存在資料庫中的示例資料,用於離線學習和評估。
- 模型訓練:訓練資料集由帶標籤的樣本資料和所有由靜態特徵和動態特徵組成的特徵生成。該模型分別針對每個POI類別進行了訓練。
Real time streaming computation: 一個實時處理地理位置座標、導航資料的流計算系統。系統獲取地理座標和導航軌跡,並將每個座標對映成一個地理網格索引。然後將對映的資料儲存在記憶體資料庫中進行線上預測。
Online service: 通過獲取POI相關特性,從資料庫檢索實時位置和導航軌跡,將所有特性融合成一個單一的特徵向量,通過訓練的模型預測停車可用性水平。
《Exploring the Urban Region-of-Interest through the Analysis of Online Map Search Queries》
該論文提出通過Region-of-Interest來研究城市中人的活動,並通過對線上地圖查詢日誌中大規模資料的挖掘提出了一套系統性的研究方法。
他們首先將城市地區分成小的網格區域,然後通過提取查詢資料中區域網格之間的流動量形成一個轉移矩陣,然後通過PageRank演算法計算出每個網格的流行度,並進一步利用密度演算法對網格進行聚類以檢測ROIs。
在第二個任務中,設計了一個時空潛在因子模型URPTM,用於發現ROI訪問者潛在的旅遊主題。在模型中,每個ROI都被看作是一個文件,而地圖查詢中的時間、原點和POI標記則被看作是單詞。在學習模型後,我們可以得到每個ROI的訪問者的時空偏好,這可以用於很多應用,比如旅遊需求分析和目標ROI分割。
《Recruitment Market Trend Analysis with Sequential Latent Variable Models》
該論文用序列潛變數模型分析招聘市場趨勢,首次嘗試了利用無監督學習方法對招聘市場的趨勢進行自動建模。為招聘市場分析提供了新的研究正規化。
文中提出了一種名為MTLVM的新的順序潛在變數模型,它是為了捕獲企業招聘狀態的時間依賴性而設計的,能夠在貝葉斯生成框架中自動學習潛在招聘主題。此外,為了捕獲隨時間變化的招聘主題,文中為MTLVM設計了分級Dirichlet流程。這些過程允許動態生成招聘主題。最後,文中實現了一個基於大規模實際招聘資料的原型系統來對其的方法進行實證評估。該模型生成的方法可以發現招聘市場趨勢,為招聘人員和求職者提供指導。
在樣本中通過Diriclet過程生成的潛在因子以及結合現有招募狀態,來生成招募要求。再由生成招募主題,每一個招募職位都由相應的決定的多項式分佈生成。
《Prospecting the Career Development of Talents: A Survival Analysis Perspective》
該論文介紹了Huayu Li等人研究的企業內部人才職業發展問題,提出了一種基於多工學習和排序約束公式的新的生存分析方法對員工的生涯路徑進行建模。在不同的排名約束和預測目標下,它能夠對人才管理中的兩個關鍵問題——人員流動和職業發展——進行建模。
具體來說,為了對員工的離職行為進行建模,文中通過考慮將每段時間間隔的預測作為任務,從而將每隔一段時間序列的生存狀態預測作為多工學習的問題。為了對經過審查和未經審查的資料進行建模,並利用非週期性和週期性事件捕獲一般生命週期建模中顯示出的本質屬性,文中對每一對不同的生存狀態標籤施加了排名約束。對於職業生涯發展的建模,文中將每個時間間隔的相對職業水平預測作為一個任務,使用不同等級的排名約束來提高效能準確率。最後,在真實世界的資料上的廣泛實驗結果清楚地驗證了模型的有效性。
百度近三年發表於KDD的論文列表
《Du-Parking: Spatio-Temporal Big Data Tells You Realtime Parking Availability》 收錄會議:KDD’18 |
《Exploring the Urban Region-of-Interest through the Analysis of Online Map Search Queries》 收錄會議:KDD’18 |
《Prospecting the Career Development of Talents: A Survival Analysis Perspective》 收錄會議:KDD’17 |
《Recruitment Market Trend Analysis with Sequential Latent Variable Models》 收錄會議:KDD’16 |
《Days on Market: Measuring Liquidity in Real Estate Markets》 收錄會議:KDD’16 |