KDD 提前看 | KDD 裡的技術實踐和突破

wujiy發表於2019-08-05
資料探勘、深度學習以及其他機器學習的模型、演算法在過去幾年一直保持快速發展,研究人員不斷提出了大量優秀的模型、演算法等,在實驗條件下,模型和演算法的準確度、處理速度等效能不斷提高。一些模型和演算法也被應用於實踐中,獲得了很好的效果。我們從 2019 年 KDD 的錄用論文中選取了幾篇重點闡述技術實踐和突破的文章進行分析和介紹。結合具體行業的特點,例如線上學習系統原始資料異構性強、醫療行業專業詞彙可理解性差、氣象資料穩定性差以及線上推薦系統智慧化需求提升等,研究人員對經典的模型和演算法進行了改進和引數調整,以適應具體的場景、滿足應用的需要。

本文將對以下四篇論文進行介紹:
  1. QuesNet: A Unified Representation for Heterogeneous Test Questions

  2. Unsupervised Clinical Language Translation

  3. Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting

  4.  Exact-K Recommendation via Maximal Clique Optimization

1.QuesNet: A Unified Representation for Heterogeneous Test Questions
KDD 提前看 | KDD 裡的技術實踐和突破
原文地址:https://arxiv.org/pdf/1905.10949.pdf
本文是 Research Track 中 Machine Learning Themes 方向的一篇文章,主要是針對線上教育提出的基於表示學習的應用,本文作者來自中科大和科大訊飛。近年來線上學習系統,包括 Khan Academy、LeetCode 等,為不同年齡段的使用者提供線上學習場景,基於問題語料庫的智慧分析,系統可為使用者提供個性化的學習服務。現有方法主要是利用自然語言處理技術將問題語句直接轉化為句法模式或語義編碼,之後利用監督學習方法最佳化模型,將編碼結果應用於後續資料分析加工處理。這些方法依賴於大量的手工標記資料,由於標註資料的缺乏和準確度不高,線上學習系統的個性化資料分析、推送效能受到很大影響。
問題描述
本文提出了一種直接利用大規模無標記問題語料庫的無監督學習模型。與傳統演算法相比本文工作的最大特點是直接利用無標記的問題語料庫進行智慧分析,這就解決了標記資料缺乏的問題。然而,針對線上學習智慧推送的無監督學習存在三個主要難點:第一,應用於教學系統的問題資料具有連貫異構的特點,如圖 1 所示,語料庫中的問題形式有文字(紅色)、影像(綠色)以及邏輯先驗知識(黃色)等。第二,針對語料庫的分析不是簡單基於語言環境完成文字直譯(提取低層特徵),還需要考慮它所包含的邏輯資訊(提取高層特徵)。第三,在實踐中無標記問題語料庫必須是簡單易獲取的,從而能夠支援後續資料加工處理,滿足線上應用的需求。
KDD 提前看 | KDD 裡的技術實踐和突破Figure 1: Two examples of heterogeneous questions.
本文提出一種基於統一特定域的理解性深度學習演算法 QuesNet。QuesNet 能夠將某一問題的異構資料聚合到統一的特定域,此外能夠提取語義資訊和邏輯知識等。QuesNet 與多種不同的後續演算法組合使用,能夠有效提高資料分析結果、改進線上產品的應用效果。
QuesNet 模型構建
QuesNet 主要包括三個部分:嵌入層、內容層和語句層。其中,嵌入層中將異構的語料資訊對映到統一域中,內容層中應用多層雙向 LSTM 提取低層語義特徵,而語句層遵循自注意力機制實現高層邏輯知識資訊與低層語義特徵的融合。
KDD 提前看 | KDD 裡的技術實踐和突破
Figure 2: QuesNet model architecture.
圖 2 給出 QuesNet 模型結構。圖 2(a) 為 QuesNet 的整體三層結構,其中圖 2(b) 為嵌入層,該層實現異構語料資料嵌入;圖 2(c) 為內容層,應用雙向 LTSM 提取特徵,雙向 LSTM 具體結構見圖 2(d);圖 2(e) 為語句層,基於全域性自注意力機制實現。

相關文章