機器推理系列第二彈:機器推理在事實檢測任務中的應用

微軟研究院AI頭條發表於2019-10-11

推理是自然語言處理領域非常重要且具有挑戰性的任務,其目的是使用已有的知識和推斷技術對未見過的輸入資訊作出判斷 (generate outputs to unseen inputs by manipulating existing knowledge with inference techniques) [1]。在本文中,我們以事實檢測為應用,介紹機器推理在事實檢測任務上的最新方法和進展。

網際網路為個人和機構提供了將資訊迅速擴散、分享的途徑,但同時也給了居心不良的人散播不實資訊的機會。虛假的資訊對社會有很多負面影響,包括股價波動、總統大選等[2]。有學者指出,虛假的訊息傳播甚至要比真實的訊息傳播面更廣[3]。因此,檢測網路上的不實新聞具有重要的社會意義。在本文中,我們研究如何使用自動化的方法檢測網際網路上的虛假資訊。該方法可以輔助新聞編輯在釋出新聞之前自動地檢測新聞中包含的不實資訊。

我們以 FEVER (Fact Extraction and VERification)  [4] 評測為例開展事實檢測的研究,該資料是目前規模最大的事實檢測公開資料集。該任務定義如下:給定一個自然語言陳述(claim,通常為一句話),要求從 Wikipedia 的文件中尋找多句話作為證據(evidence),利用該 evidence 去判斷該陳述的真偽(SUPPORTED/REFUTED)。如果 evidence 的資訊不足以支撐判斷陳述的真偽,則輸出(NOT ENOUGH INFO)。

FEVER 資料包含了 185,445 個樣例,每個陳述都具有人工標註的標籤,同時對於標籤類別是 SUPPORTED 或 REFUTED 的樣例還標註了正確的 evidence。資料樣例如圖1。我們在圖中高亮了關鍵的資訊,從該樣例可以看出,每個單獨的 evidence 都無法支撐最終的結果,判斷陳述的真偽需要深入地理解各 evidence 句子之間的邏輯結構,並有效地利用該資訊進行推斷。
機器推理系列第二彈:機器推理在事實檢測任務中的應用圖1:FEVER 資料樣例該任務的評測指標有兩項:第一個評測指標是陳述分類的精確率(accuracy),第二個評測是 FEVER score,只有陳述分類和 evidence 選擇均正確才算正確。該評測任務在 Codalab 有一個官方的排行榜,測試集的標註資訊不對外開放,所以各參評者需要提交各自的系統到官方平臺進行比較。目前,我們的系統 DREAM 在兩項評測指標中均取得了目前 state-of-the-art 的結果

Codalab 官方排行榜:https://competitions.codalab.org/competitions/18814#results
機器推理系列第二彈:機器推理在事實檢測任務中的應用圖2:FEVER 排行榜 (2019.09.18)DREAM 系統

DREAM 系統的框架圖如圖3所示,主要包括三個模組:篇章選擇模組知識選擇模組陳述分類模組。其中,篇章選擇模組的目的是從 Wikipedia 中選擇與當前陳述相關的文章,知識選擇模組則從已選中的篇章內,選擇與當前陳述相關的多個句子,這些句子集合作為 evidence,與陳述一起作為最後陳述分類模組的輸入。在本文中,我們將重點介紹陳述分類模組,即基於圖的推理模型。篇章選擇模組和知識選擇模組的細節,請參照我們的論文“Reasoning Over Semantic-Level Graph for Fact Checking”[5]。
機器推理系列第二彈:機器推理在事實檢測任務中的應用圖3:DREAM 系統框架圖陳述分類(claim classification)模組的輸入是陳述(claim)和多個 evidence 句子,輸出是 SUPPORTED/REFUTED/NOT ENOUGH INFO 三個類別中的一個。透過圖1我們分析得到:陳述分類的兩大挑戰是:(1)如何理解多個 evidence 句子之間的邏輯結構;(2)如何在理解的基礎上對資訊推理和整合做出預測。已有的工作通常把多個 evidence 連線成一個字串、或分別計算每個 evidence 句子的特徵再進行融合,缺乏對多個 evidence 句子的語義理解。在本文中,我們利用基於語義角色標註(semantic role labeling)的淺層語義分析器把多個 evidence 句子解析成一個語義圖,並在圖上推斷陳述的類別。我們的建圖有以下兩個標註:(1)把每個 SRL 抽取的 triple 中的各個元素全連線;(2)把多個 triple 中的固定型別節點(包括argument、location和temporal)根據字元相似度建立連線。圖1中 evidence 句子構建的圖如圖4所示。我們使用同樣的方式把每個陳述也表示為一個圖。
機器推理系列第二彈:機器推理在事實檢測任務中的應用圖4:基於 SRL 的圖樣例在構建好了陳述的圖和 evidence 的圖之後,我們提出了基於圖的推理模型,該模型在圖結構上對陳述和 evidence 匹配。具體地,我們提出了兩個基於圖的語義運算模組,即基於圖的上下文詞向量模組和基於圖的語義推理模組。其中,第一個模組計算每個詞語的上下文相關的表示(contextual word representation),第二個模組在第一個模組的結果基礎上計算圖中每個節點的表示以及把兩個圖進行匹配。

我們的方法建立在 XLNet 的基礎上,因此第一個模組的一種最簡單的實現方式就是把所有 evidence 句子連線,但這樣會使出現在不同句子中、語義邏輯上很近的詞語距離較遠。於是,我們利用生成的圖結構重新定義了詞語之間的相關距離,在計算詞語的上下文相關的表示時融入更多的語義結構資訊。

第二個模組,即基於圖的語義推理模組會首先計算圖中每個節點的表示,我們使用節點內部詞語表示的平均來進行初始化;隨後在圖上使用圖卷積網路(GCN)使得圖中每個節點都可以獲得鄰居節點的資訊;最後,在獲得了兩個圖中每個節點的表示之後,我們使用注意力(attention)機制基於兩個圖進行推理,做出最後的判斷。
機器推理系列第二彈:機器推理在事實檢測任務中的應用圖5:基於圖的推理模型結語

本文介紹了機器推理在事實檢測任務中的應用,提出了融合語義結構資訊的上下文詞向量學習模組和基於圖的語義推理模組,我們提出的推理方法在 FEVER 上取得了 state-of-the-art 的結果。

敬請期待機器推理方法在更多推理任務上的應用!

參考文獻:

[1] Ming Zhou, Nan Duan, Shujie Liu, Heung-Yeung Shum. Progress in Neural NLP: Modeling, Learning and Reasoning. Accepted by Engineering, 2019.

[2] Faris, R.; Roberts, H.; Etling, B.; Bourassa, N.; Zuckerman, E.; and Benkler, Y. 2017. Partisanship, Propaganda, and Disinformation: Online Media and the 2016 U.S. Presidential Election.

[3] Vosoughi, S.; Roy, D.; and Aral, S. 2018. The spread of trueand false news online. Science 359(6380):1146–1151.

[4] Vlachos, A., and Riedel, S.  2014. Fact checking: Task def-inition and dataset construction. InProceedings of the ACL 2014 Workshop on Language Technologies and Computational Social Science, 18–22.

[5] Wanjun Zhong, Jingjing Xu, Duyu Tang, Zenan Xu, Nan Duan, Ming Zhou, Jiahai Wang, Jian Yin. Reasoning Over Semantic-Level Graph for Fact Checking. arXiv:1909.03745, 2019

相關文章