論文名稱:Event Representation Learning Enhanced with External Commonsense Knowledge
論文作者:丁效,廖闊,劉挺,段俊文,李忠陽
原創作者:廖闊,丁效,李忠陽
下載連結:https://arxiv.org/pdf/1909.05190.pdf
1. 簡介
事件是現實世界中一種重要的知識,學習有效的事件表示可以提升指令碼事件預測等許多下游任務的效果。事件是對客觀事實的表達,然而客觀事件的發生會對人類的主觀情感產生影響,不同事件其背後的意圖也有所不同。本文提出學習事件表示時融入人的情感及意圖等外部常識知識,以更好地建模事件表示,並在事件相似度、指令碼事件預測等任務上取得了優於基線方法的結果。
2. 動機
事件是一種重要的客觀資訊,事件表示學習將事件資訊表示為可計算的低維稠密向量,是人工智慧領域一項重要的工作。在之前的研究中,“加性”(Additive)模型是應用最廣泛的事件表示方法之一,這一方法將事件論元的詞向量相加或拼接後,透過一個網路對映到事件向量空間。進一步地,Ding等人(2015)與Weber等人(2018)提出使用Neural Tensor Network對事件論元進行語義組合,更好地捕獲事件論元間的互動資訊。
這一系列的工作仍然依賴於詞表示學習,難以區分事件之間微妙的差別。一方面,如果兩個事件單詞重疊較少,如圖1(a)所示,“PersonY threw bomb”(某人Y投擲炸彈)和“PersonZ attackedembassy”(某人Z襲擊大使館)會被對映為距離較遠的兩個向量。另一方面,如果兩個事件單詞重疊較多,那麼即使兩個事件關聯很小,事件向量也容易具有很高的相似度,如圖1(b)所示,“PersonX broke record”(某人X打破記錄)“PersonY broke vase”(某人Y打破花瓶)會被對映為距離較近的兩個向量。
圖1 意圖、情感資訊在判斷相似事件中的作用
導致該問題的一個重要原因是缺乏有關事件參與者心理狀態的常識資訊。在圖1(a)中,事件參與者“某人Y”和“某人Z”可能在進行恐怖襲擊,因此,兩個事件具有相同的意圖:“造成傷亡”,這一資訊可以幫助模型將兩個事件對映到向量空間中較近的位置;在圖1(b)中,“打破紀錄”的人可能很高興,而“打破花瓶”的人可能心情沮喪,事件中隱含著參與者的不同情感狀態,可幫助將兩個事件對映到向量空間中較遠的位置。因此,可以使用意圖和情感資訊對事件表示進行增強。這些常識知識可以從Event2Mind (Rashkin等人,2018)和ATOMIC(Sap等人,2019)常識知識庫中獲得。因此,我們提出將外部常識知識,例如意圖和情感,融入事件表示學習的過程中,以獲得更好的事件表示。
3. 方法
事件表示學習的目標是為事件三元組(A,P,O)學習低維稠密的向量表示,其中P為謂語,A為主語,O為賓語。事件表示模型對謂語、主語、賓語的表示進行組合。我們沿用Ding等人(2015)的方法,使用張量神經網路(Neural Tensor Network,NTN)作為事件表示模型。NTN的結構如圖2所示,模型使用雙線性變換顯式地建模謂語與主語、謂語與賓語及三者間的互動關係。具體公式如下:
其中,是一個張量,由個矩陣組成,每個矩陣的維度為。雙線性張量運算的結果是一個維向量,向量中的每個元素是由張量的一個切片參與運算得到的()。其他的引數是一個標準的前饋神經網路,為前饋神經網路的權重,為偏置,為啟用函式。和的計算過程同。
NTN的一個問題是“維度災難”,因此我們使用low-rank tensor decomposition來模擬高階tensor以減少模型的引數數量。Low-rank tensor decomposition的過程如圖3所示。具體地,將原來張量神經網路中的張量使用近似,每個切片的計算方法為:
其中,,,,是一個超引數,用來調整low-rank分解後的張量大小。加入low-rankdecomposition後,張量神經網路的計算過程變為:
圖3 Low-rank tensor decomposition
對於訓練集中出現的事件,我們隨機將事件的一個論元替換為另一個單詞。我們假設原始事件應比替換後的事件具有更高的得分,並計算兩個事件的合頁損失:
其中,為事件的向量表示,為替換事件成分後的向量表示,為事件的得分,計算方式如下:
類似地,對於訓練集中的每個事件,有一個人工標註的正確意圖,我們從所有意圖中隨機取樣一個錯誤的意圖,認為正確的意圖應該比錯誤的意圖具有更高的得分。具體地,我們使用雙向LSTM得到意圖文字的向量表示,並使用意圖與事件向量的餘弦相似度作為意圖得分,計算合頁損失:
其中,是正確意圖的向量表示,是錯誤意圖的向量表示。
同時,對於訓練集中的每個事件,有一個標註的情感極性標籤(0-消極,1-積極)。我們將事件表示作為特徵輸入分類器,訓練該分類器預測正確情感標籤的能力,從而使事件表示中帶有情感極性資訊,計算情感分類的交叉熵損失:
其中,為訓練集中事件的集合,為事件正確的情感極性標籤,為模型預測的事件情感極性標籤。
最終的最佳化目標為三部分損失的加權和:
模型的整理架構如圖4所示。
圖4 融合意圖、情感資訊的事件表示模型架構
4. 實驗
4.1 事件相似度
我們在Hard Similarity和Transitive Sentence Similarity兩個事件相似度任務上對比了模型與基線方法的效果。
Hard Similarity任務由Weber等人(2018)提出,該任務構造了兩種型別的事件對,第一種事件對中,兩個事件語義相近,但幾乎沒有單詞上的重疊;第二種對事件中,兩個事件單詞上重疊程度較高,但語義相差較遠。對每種事件表示方法,我們計算每個事件對的餘弦相似度作為得分,並以相似事件對得分大於不相似事件對得分的比例作為模型的準確率。
Transitive SentenceSimilarity資料集(Kartsaklis與Sadrzadeh,2014)包含了108個事件對,每個事件對帶有由人工標註的相似度得分。我們使用Spearman相關係數評價模型給出的相似度與人工標註的相似度的一致性。
表1 事件相似度實驗結果
兩個任務的結果如表1所示。我們發現:
(1) 在Transitive SentenceSimilarity任務上,詞向量均值的方法取得了很好的結果,但在Hard Similarity任務上結果很差。這主要是因為HardSimilarity資料集是專門為了區分“重疊詞較多但語義不相似”“重疊詞較少但語義相似”的情況。顯然,在這一資料集上,詞向量均值的方法無法捕獲事件論元間的互動,因此無法取得較好的效果。
(2) 基於Tensor 組合的模型(NTN, KGEB, RoleFactor Tensor, Predicate Tensor)超過了加性(Additive)模型(Comp.NN, EM Comp.),表明基於Tensor組合的方法可以更好地建模事件論元的語義組合。
(3) 我們的常識知識增強的事件表示方法在兩個資料集上均超過了基線方法(在Hard Similarity小資料集和大資料集上分別取得了78%和200%的提升),表明常識知識對於區分事件具有重要的作用。
表2展示了Hard Similarity任務上加入常識資訊前(oScore)/後(mScore)事件相似度的變化。
表2 加入常識資訊前後事件相似度變化
4.2 指令碼事件預測
指令碼事件預測(Chambers與Jurafsky,2008)任務定義為給定上下文事件,從候選事件中選出接下來最有可能發生的事件。我們在標準的MCNC資料集(Granroth-Wilding與Clark,2016)上驗證模型的效果。我們沿用Li等人(2018)的SGNN的模型,僅僅用我們的事件表示模型代替SGNN中的事件表示部分。表3中的實驗結果顯示,我們的方法在單模型上取得了1.5%的提升,在多模型ensemble上取得了1.4%的提升,驗證了更好的事件表示在該任務上的重要性。我們觀察到,僅僅融入意圖的事件表示超過了其他基線方法,表明捕獲參與者的意圖資訊可以幫助推理他們的後續活動。另外,我們發現只融入情感資訊的事件表示也取得了比原始SGNN更好的效果,這主要是因為順承事件間情感的一致性也可以幫助預測後續的事件。
表3 指令碼事件預測實驗結果
4.3 股市預測
前人的研究顯示新聞事件會對股價的漲跌產生影響(Luss與d’Aspremont,2012)。我們對比了使用不同事件表示作為特徵預測股市漲跌的結果,如圖5所示。該實驗結果顯示了事件中的情感資訊在股市預測任務上的有效性(取得了2.4%的提升)。
5. 結論
要讓計算機充分理解事件,需要將常識資訊融入事件表示之中。高質量的事件表示在指令碼事件預測、股市預測等許多下游任務上具有重要的作用。本文提出了一個簡單而有效的事件表示學習框架,將意圖、情感常識資訊融入事件表示的學習之中。事件相似度、指令碼事件預測、股市預測三個任務上的實驗結果表明,我們的方法可以有效提高事件表示的質量,併為下游任務帶來提升。