精選|CIKM 2016會議論文選讀

微軟研究院AI頭條發表於2016-08-25

筆者上一篇文章主要對CIKM 2016會議做了一個概括性描述,本次CIKM會議研究領域總共錄取了160篇長文,錄取率為23%,109篇短文其中包括54篇擴充版短文(6頁)和55篇短文(4頁),錄取率為24%。本文主要介紹幾篇會議上值得留意的長文和短文。

● 本次大會的最佳論文獎頒給了“ Vandalism Detection in Wikidata” (doi>10.1145/2983323.2983740)。

● 最佳學生論文獎頒給了“Medical Question Answering for Clinical Decision Support” (doi>10.1145/2983323.2983819)和“Constructing Reliable Gradient Exploration for Online Learning to Rank” (doi>10.1145/2983323.2983774)兩篇論文。

● 最佳Demonstration獎頒給了“ Inferring Traffic Incident Start Time with Loop Sensor Data” (doi>10.1145/2983323.2983339) 。

下面著重介紹一下醫療問答的這篇文章。

“Medical Question Answering for Clinical Decision Support”

這篇論文屬於自動問答系統研究範疇,該文章首先從大量電子醫療文件(EMRs)建立好一個非常大的概率性醫療知識圖譜。知識圖譜中節點的種類包括症狀、診斷、測試以及治療。然後根據知識圖譜以及給定的醫療案例主題(包含該醫療案例的描述性片段,醫療案例總結,以及該醫療案例的問題),該文章提出了三種生成答案的方法,最後用已生成的答案根據其與科學文獻的相關度對科學文獻進行排序,其整體框架以及實驗結果如下圖所示。之前解決該任務的方法基本上分為兩步:1)根據每個主題的其他資訊(描述性片段,醫療案例總結)對問題進行擴充;2)用已擴充的問題根據其與科學文獻的相關度對科學文獻進行排序。該文獨特之處在於用知識圖譜首先推理問題答案,再用答案代替問題直接和科學文獻進行匹配。本任務最初的目的是希望找到對應的文獻來回答每個主題的問題,所以用答案對文獻進行排序的結果在理想狀態下會優於用問題對文獻進行排序的結果。研究醫療自動問答的讀者可以仔細閱讀一下全文。

精選|CIKM 2016會議論文選讀

精選|CIKM 2016會議論文選讀

在今年的CIKM會議上,我們團隊的一篇論文“Learning to Extract Conditional Knowledge for Question Answering using Dialogue”以長文的形式被錄取。這是一篇關於條件性知識庫搭建並用於驅動自動對話系統的文章。選題之初我們發現現實生活中很多人機對話往往是由於條件不足而引起的,比如在預訂車票的對話中,常常會因為使用者在發起訂票命令時,缺少“時間”,“地點”,“人名”等條件,因此智慧助手會主動提問,從而導致長對話的產生。相同的應用場景還有預定會議室、購買手機等場景。然而在目前的對話系統中,這些所謂的條件往往都是人工提前設定好的,只要系統檢測到使用者沒有提供這個條件就會主動發問。然後每個場景的條件往往很不相同,這就會需要大量的人力來手動提取條件。

基於此,我們提出從問答語料庫中自動抽取條件性知識庫用以支撐人機對話。傳統的知識庫或知識圖譜以三元組形式儲存,即(主語,謂詞,賓語)。本文提出的條件性知識庫的形式為(主語,謂詞,賓語|條件),其意義在於在給定主語和謂詞不變前提下,賓語會根據條件的不同而不同,下圖為我們執行例項框架圖(圖中假設選定windows 10為主語),抽取條件性知識庫的整個框架主要由四部分組成:

  • 模板挖掘(pattern mining)。這一步目的是從大量的問題答案對中抽取模板(pattern)。一開始我們專案處理的資料是整個開放的資料集,後來發現後續處理難度實在太大了。最後我們採取複雜問題簡單化,先選取“how to”等簡單句型進行處理,擴充套件到更多的句型乃至整個資料集是我們下一步的計劃。
  • 條件以及模板表示學習(condition and pattern representation learning)。這一步表示學習是為了給下一步聚類做準備。
  • 條件以及模板聚類。一開始我們採用最簡單的k-means方法聚類,但是發現結果非常不好,但是我們發現條件和模板共同出現的現象,最後我們提出一種新的基於表示的聯合聚類(Embedding based Co-clustering)的方法聚類, 該方法融合了之前學習到的條件以及模板向量表示,同時在模板和條件兩個角度上聚類。
  • 基於聚類結果,搭建條件性知識庫。在得到條件性知識庫後,使用者輸入一個問題,我們的系統首先會檢測使用者問題是否缺少條件,如果缺少就反問使用者並讓使用者補全條件,最後系統返回正確的答案。

精選|CIKM 2016會議論文選讀除了獲獎的三篇最佳論文,大會上還有很多質量高的報告,尤為印象深刻的便是Deep Learning Application Session,整個報告廳座無虛席,會場後面很多站立的聽眾也是興致勃勃。在這個Session中總共講了四篇論文,分別為:

  • “LICON: A Linear Weighting Scheme for the Contribution of Input Variables in Deep Artificial Neural Networks”
  • “A Deep Relevance Matching Model for Ad-hoc Retrieval” 
  • “A Neural Network Approach to Quote Recommendation in Writings”
  • “Retweet Prediction with Attention-based Deep Neural Network”

下面我們簡單分析一下第二篇關於資訊檢索的論文。

“A Deep Relevance Matching Model for Ad-hoc Retrieval”

文中提出一種新的深度網路模型(DRMM)來解決Ad-hoc資訊檢索任務,計算query和文件(document)的相關度在資訊檢索中非常重要。該文對比了在計算相關度中有用到的兩種深度網路結構:Representation-focused模型和Interaction-focused模型。Representation-focused模型中具有代表意義的模型有DSSM、 CDSSM以及ARC-I;Interaction-focused模型中具有代表意義的模型有ARC-II。該論文是在Interaction-focused模型基礎之上進行修改,得到一個新的網路模型DRMM。之前的基於Interaction-focused的模型保留了位置資訊,比如ARC-II中生成的互動矩陣,然後在此之上構建前向網路。但是在實際情況中,query中的詞和文件中的詞不具有位置上的對應關係。基於此,該文提出的DRMM是基於值的大小對matrix中的單元重新分類(即該文中所提到的直方圖)。該文首先用query中的每個單詞和文件的每個單詞構建成為一個詞對(word pair),再基於詞向量,將一個詞對對映到一個區域性互動空間(local interactions,該文用了餘弦相似度)。然後將每一個區域性互動空間對映到長度固定的匹配直方圖中。引用文中的例子,將相似度[-1, 1]分為五個區間{[-1,-0.5), [-0.5,-0), [0,0.5), [0.5,1), [1,1]} 。給定query中的一個詞“car”以及一篇文件(car, rent, truck, bump, injunction, runway), 得到對應的區域性互動空間為(1, 0.2, 0.7, 0.3, -0.1, 0.1),最後我們用基於計數的直方圖方法得到的直方圖為[0, 1, 3, 1, 1]。對於每一個query的詞得到一個直方圖分佈後,在此之上構建一個前向匹配網路並且產生query和文件的匹配分值,最後在將query中所有詞合併的時候加入gating引數(比較類似於attention機制),整個框架圖以及實驗結果如下圖所示。研究資訊檢索的讀者可以仔細閱讀一下全文。

精選|CIKM 2016會議論文選讀

精選|CIKM 2016會議論文選讀

精選|CIKM 2016會議論文選讀

另外Question Answering Session中也有兩篇高質量的論文,一篇即為獲獎論文(醫療問答),下面簡單介紹一下另一篇。

“aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model”

文中提出了一種新的attention機制的神經網路模型aNMM來對答案進行排序。在aNMM模型中,主要引入了兩個創新:1)使用值共享權重(value-shared weights)代替卷積網路中的位置共享權重(position-shared weights); 2) 在最後的全連線層中使用attention機制來給問題中不同單詞進行加權,不太重要的詞權重會很小,重要的詞權重會很大。該文的value-shared weight方法和上一篇資訊檢索論文的原理上一致,均認為position-based的方法不太適合QA或者IR。不同之處為上一篇文章引入了直方圖,而該文直接對普通CNN的卷積模板進行改造,詞對的值在同一區間的權重共享,同時該文給出了aNMM的兩個變種模型,一是aNMM-1, 二是aNMM-2。aNMM-1只是用了一組共享權重,而aNMM-2使用多組共享權重,整個框架圖以及實驗結果如下圖所示。研究自動問答的讀者可以仔細閱讀一下全文。

 

精選|CIKM 2016會議論文選讀

精選|CIKM 2016會議論文選讀

Better Search Session中有一篇文章值得留意:

“Learning Latent Vector Spaces for Product Search”

文中提到在電子商務中商品搜尋在如今線上購物網站中起重要作用,即使用者通過輸入一個短句子來搜尋其想要購買的商品。為此文中提出了一種新的向量空間模型(latent vector space model),同時學習詞向量和商品向量。其中詞向量和商品向量分別處在不同的向量空間中,使用者每次輸入的句子首先會被對映到商品向量空間中,然後在商品向量空間中通過計算相似度來搜尋對應的商品。其每條訓練資料格式為(商品-文件),這裡的文件包括商品的描述以及使用者對該商品的評價。訓練方法如下圖所示。

精選|CIKM 2016會議論文選讀

其中w是句子中的一個詞,x是一個商品,w先通過一個詞嵌入矩陣Wv來得到其在詞向量空間的詞向量,之後通過一個非線性操作對映到商品向量空間中。最後在商品向量空間中計算詞w和商品x的相似度。句子的向量是通過對其中所有詞向量平均而得到的。該文通過(商品-文件)的相似度比(商品-其他隨機文件)的相似度更相似的原理來構建目標函式。其實驗結果如下圖所示:

精選|CIKM 2016會議論文選讀

大會論文中也不乏一些有趣的文章,比如以下兩篇文章:

“Using Prerequisites to Extract Concept Maps from Textbooks”文中提出一種新的框架來從學習文件中抽取一種特殊的知識圖譜——概念圖(concept map)。不同於已有的知識圖譜,該文的概念圖中的節點代表的是科學概念或者數學概念而非人名、地名、組織名,同時節點之間的關係為“先決條件關係”(prerequisite relationship)而非“is-a”或“part-of”關係。先決條件關係代表著在學習一個高階概念時,有必要先把其基本概念搞清楚。比如在學習“L1正則化”時有必要先把“正則化”瞭解清楚。之前的工作經常將概念抽取和關係分類看作是兩個獨立的任務進行優化。本文通過自定義的五條規則來同時對關鍵概念抽取以及關係分類進行建模。

“Finding News Citations for Wikipedia”一文主要解決給維基百科中詞條描述尋找新的引用。目前大量的詞條描述缺少引用或者引用過時,該文通過以下步驟來解決此問題,首先使用監督訓練方法對詞條描述進行分類,其中類別包括“是否需要一條新的引用”以及其他類別,然後分類完之後,通過資訊檢索的方法來檢索一些和詞條描述相關的引用文章,最後再通過一個分類器對檢索出來的引用文獻進行分類,確定其是否是正確的引用。

此外,本次大會還設了論文討論環節,大家可以為喜歡的論文點贊,在官網(http://www.cikm2016.org/) Program-Paper Discussion Forum中仍然可以觀看到投票結果。在本次討論當中可以就喜歡的論文進行多人討論。

 

精選|CIKM 2016會議論文選讀會議海報環節

本次大會的海報環節場面也是相當火爆,整個環節持續一個半小時,可以隨時隨地和作者進行交流。海報環節也不乏有趣的文章。

“Skipping Word: A Character-Sequential Representation based Framework for Question Answering”一文提出直接使用字元級表示來構建句子表示。近來字元級表示(character representation)已經在很多工上被驗證能夠有效的提高效能,但是本篇文章與之前的工作不同的地方在於,之前的方法在構建句子的時候均為字元-詞-句子的方式構建,而該文直接由字元-句子的方式構建。通過字元級表示得到句子表示之後,對其進行卷積以及取樣。最後通過構建一個二分類任務進行訓練,即問題和答案相關或者不相關。

“Incorporate Group Information to Enhance Network Embedding”一文提出將組的資訊考慮到Network Embedding學習中。之前基本上所有的Network Embedding方法只考慮了網路的節點以及節點與節點之間的邊。但是在很多社交網路中(比如YouTube和FaceBook),使用者可以自行建組,別人也可以選擇加入他人建立的組中。同一組的節點即使直接沒有邊,一般也會存在一些內在關係。所以該文考慮將組的資訊加入到Network Embedding中。該文的思想比較簡單,每個相同的組也會學到一個向量表示,組向量有兩個用處:1)在利用周圍節點預測中心節點時,組向量也會加入預測; 2)組向量也會預測組中的其他節點。最後目標函式是將上述兩項相加而成,得到令人滿意的實驗結果。

“Distilling Word Embeddings: An Encoding Approach”一文中提出通過提取高維的詞向量中的知識,並蒸餾(distilling)到低維的詞向量中,在保證一定的準確率的前提下來提高執行效率。該文首先訓練得到一個高維的詞向量,之後在其上加一層非線性變化(單程全連線)得到一個低維的詞向量,非線性變化的引數由最後的任務 (比如用低維詞向量用作情感分析或者分類的輸入)訓練資料更新得到。最後實驗結果表明,該文提出的方法優於直接在原始語料庫中訓練一個低維的詞向量,同時準確率最高的結果是由高維詞向量得到,但是低維詞向量的耗時是高維詞向量耗時的0.04倍。

“Learning to Rank System Configurations”一文中通過使用學習排序的方法來自動配置任務演算法中的引數。在實際模型中,比如資訊檢索模型以及擴充模型,經常包含很多種不同的特徵,每一維的特徵經常不是獨立的,所以手工去調節這些引數將要花費大量的時間。該文中提出用最新的學習排序的方法來同時自動配置所有的特徵。在實驗中進行了多項任務,每項任務都事先給出一系列特徵,最後的實驗結果優於BM25和網格搜尋(Grid Search)的結果。

通過這次會議論文分析,可以看出資訊檢索和自動問答系統在科學研究和現實生活中非常受歡迎,在解決資訊檢索任務時,既有傳統的學習排序方法,也有目前火熱的深度學習演算法。但是目前很多深度學習演算法在資訊檢索或其他自然語言處理任務中效果仍然不及其在影像上應用的結果,究其原因主要在於影像和文字有很大的本質區別,將適用於影像的深度模型直接移植用於文字往往效果不會好,應根據文字自身性質來改變網路結構,比如上述提到的value-based的方法。深度學習繼續在資訊檢索和自動問答系統如何發力?讓我們拭目以待。

如果讀者對資訊檢索或者資料探勘領域感興趣,也歡迎大家隨時和筆者互動,讓我們在工作、學習中彼此交流與分享(筆者郵箱:eepwwang@163.com)。

​原文連結:http://mp.weixin.qq.com/s/btCjwJx9Htz4ilomPq9KWA

相關文章