譯文:Relation Classification via Multi-Level Attention CNNs 使用多層級attention機制的CNN進行關係分類

最小森林發表於2020-04-07

通過多層面的attention CNN的關係分類

原文:Relation Classification via Multi-Level Attention CNNs http://eprints.bimcoordinator.co.uk/14/

摘要:

關係分類是眾多從文字中挖掘結構化事實的資訊抽取系統中的一個重要組成部分。我們提出了一種新的卷積神經網路體系結構,針對這一任務,依賴於兩個層次的attention,以便更好地識別異構上下文中的模式。這種結構使端到端的任務特異性標記資料的學習,放棄對外部知識如顯式依賴結構的需要。實驗表明,我們的模型優於以前的最先進的方法,包括那些依賴於更豐富的先驗知識形式。

1介紹

關係分類是識別文字中兩個名義實體之間的語義關係的任務。它是自然語言處理的系統,需要從文字挖掘事實清楚的一個重要組成部分,例如各種資訊提取中的應用以及答疑知識庫完成(Tandon et al.,2011;陳等,2015)。例如,給定示例輸入
“ Fizzy [drinks] and meat cause heart disease and [diabetes].”
帶註釋的目標實體提到E 1和E 2 =“飲料”=“糖尿病”,目標會自動識別這個句子表達了E 1和E 2之間的因果關係,而我們使用符號的因果(E 1,E 2)。準確的關係分類有利於精確句子的解釋,語篇處理,和更高一級的NLP任務(亨德克斯et al.,2010)。因此,關係分類吸引了過去幾十年的課程研究者的廣泛關注(張,2004;錢et al.,2009;溜冰場和harabagiu,2010)。
在上面給出的例子中,動詞與所期望的目標關係相當接近。然而,在野外,我們遇到了許多表達同一種關係的不同方式。這種具有挑戰性的可變性本質上可以是詞彙、句法甚至語用。一個有效的解決方案需要能夠解釋有用的語義和句法特徵,不僅是詞彙層面上的目標實體的意義,還包括它們的直接上下文和整個句子結構。
因此,眾多特徵和基於核的方法已被提出,這並不奇怪,許多依賴於一個成熟的NLP棧,包括詞性標註、形態學分析、句法分析和語義分析,偶爾,以及對知識資源的獲取詞彙語義特徵(kambhatla,2004;周等,2005。;Suchanek et al.,2006;錢et al.,2008;穆尼,2005;Bunescu bunescu,和穆尼,2005)。近年來,我們已經看到了一個深入的體系結構,它能夠學習相關的表示和特性,而不需要進行大量的手工功能工程或使用外部資源。一些卷積神經網路(美國有線電視新聞網),遞迴神經網路(RNN),和其他神經的架構已經被提出關係分類(Zeng et al.,2014;多斯桑托斯等人,2015;Xu et al.,2015b)。儘管如此,這些模型常常無法識別關鍵線索,其中許多仍然需要外部依賴解析器。
我們提出了一個新的cnn架構,解決了以往方法的不足。我們的主要貢獻如下:

  1. 我們的cnn體系結構依賴於一種新的多層次注意機制,來捕獲實體特定的注意(在輸入級別上,針對目標實體的主要注意)和特定關係的集合注意(關於目標關係的次級注意)。這使得它能夠檢測到更多的微妙線索,儘管輸入語句結構不一,使它能夠自動學習哪些部分與給定的分類相關。
  2. 我們引入了一個新穎的基於邊緣的邊際目標函式,證明其優於標準損失函式。
  3. 在SemEval 2010 Task 8資料集中,我們獲得了新的最先進的關係分類結果,F1評分為88.0%,優於依賴於更豐富的先驗知識的方法。

2相關工作

除了幾種無監督的聚類方法(長谷川等,2004; Chen等人,2005),大多數關於關係分類的工作已經被監督,通常被稱為標準的多類或多標籤分類任務。傳統的基於特徵的方法依賴於從顯式語言預處理步驟的輸出計算出的一組特徵(Kambhatla,2004; Zhou等,2005; Boschee et al。,2005; Suchanek et al。,2006; Chan and Roth ,2010; Nguyen和Grishman,2014),而基於核心的方法利用卷積樹核心(Qian et al。,2008),子序列核心(Mooney和Bunescu,2005)或依賴關係樹核心(Bunescu和Mooney,2005) )。因此,這些方法都取決於經常以試錯法選擇的精心設計的特徵,或精心設計的核心,反過來又經常來自其他預先訓練的NLP工具或詞彙和語義資源。雖然這種方法可以從外部NLP工具中受益,以發現句子的離散結構,但語法解析容易出錯,並且依賴於其成功也可能妨礙效能(Bach和Badaskar,2007)。進一步的缺點包括其對於不可見的詞語的有限的詞彙泛化能力,以及當應用於新的領域,型別,或語言。

近年來,深層神經網路已經取得了有希望的成果。 Socher等人的遞迴矩陣維基模型(MV-RNN) (2012)試圖通過利用句法樹來捕捉句子語義的組成方面。曾等(2014)提出了一種具有softmax分類的深卷積神經網路,提取詞法和句子級特徵。然而,這些方法仍然依賴於詞彙資源和NLP工具包的附加功能。 Yu et al。 (2014)提出了基於因子的組合嵌入模型,它使用語法依賴樹和句子級嵌入。除了Santos等人(2015),他們提出了具有類嵌入矩陣Miwa和Bansal(2016)的排名CNN(CR-CNN)模型,類似地觀察到,由於網路中捕獲的語言結構有限,基於LSTM的RNN優於使用CNN的模型建築。已經提出了一些更復雜的變體來解決這個問題,包括雙向LSTM(Zhang et al。,2015),深層復發神經網路(Xu et al。,2016)和雙向結構化的LSTM-RNN(Miwa和Bansal,2016)。最近的幾個作品還重新引入了基於依賴樹的設計,例如在句法樹(Hashimoto等,2013)上執行的RNN,基於最短依賴路徑的CNN(Xu et al。,2015a)和SDP-LSTM模型Xu等,2015b)。最後,Nguyen和Grishman(2015)對CNN和RNN進行了訓練,並使用投票,堆疊或對數線性建模來不同地整合其產出(Nguyen和Grishman,2015)。雖然這些最近的模型實現了很好的結果,但理想情況下,我們將需要一個簡單而有效的架構,不需要依賴關係解析或訓練多個模型。我們在第4節中的實驗表明,我們確實可以實現這一點,同時在獲得的F1分數方面也獲得了實質性的改進。

3模型

在這裡插入圖片描述
給定具有實體提及e 1和e 2的標籤對的句子S(如在我們的示例中從第1節),關係分類是在一組候選關係型別中識別在e 1和e 2之間保持的語義關係的任務 (Hendrickx等人,2010)。 由於唯一的輸入是具有兩個明確提及的原始句子,因此獲得準確預測所需的所有詞彙,語義和句法提示是不重要的。

為此,我們提出了一種新穎的多層次關注卷積神經網路模型。我們的架構的示意圖在圖1中給出。輸入句首先使用字向量表示進行編碼,利用上下文和位置編碼來更好地捕獲單詞順序。使用基於對角矩陣的主要注意機制來捕獲單詞相對於目標實體的相關性。對於所得到的輸出矩陣,然後應用卷積運算以便捕獲諸如相關的n-gram之類的上下文資訊,然後是max-pooling。次要注意池層用於基於注意池矩陣從輸出中確定關係分類中最有用的卷積特徵。本節的其餘部分將提供有關此架構的更多詳細資訊。表1提供了我們將為此使用的符號的概述。最終輸出由新的目標函式給出,如下所述。
在這裡插入圖片描述

3.1分類目標

我們從關係分類架構的自上而下的設計考慮開始。 對於給定的句子S,我們的網路將最終輸出一些w O。 對於每個輸出關係y∈Y,我們假設有一個相應的輸出嵌入W L y,它將自動被網路學習(dos Santos等,2015)。
我們提出一種新的距離函式δθ(S),其衡量方式為:網路的預測輸出w O與候選關係y的接近度。
在這裡插入圖片描述

使用L 2範數(注意W L y已經被歸一化)。 基於該距離函式,我們設計了基於邊緣的成對損失函式L
在這裡插入圖片描述
其中1是餘量,β是引數,δθ(S,y)是預測標籤嵌入WL和地面真值標籤y之間的距離,δθ(S,y-)是指w O 並選擇不正確的關係標籤y - 。 後者被選為所有不正確類別中最高分的人(Weston等人,2011; dos Santos等人,2015),即
在這裡插入圖片描述
這種基於邊際的目標具有與經驗損失函式相比具有強大的可解釋性和有效性的優點,例如由dos Santos等人在CR-CNN方法中的排序損失函式。(2015年)。 基於由詞類比推動的距離函式(Mikolov等,2013b),我們將預測輸出和地面真值標籤之間的差距最小化,同時使所選擇的不正確類最大化距離。 通過迭代地最小化該成對損失函式(見第3.5節),δθ(S,y)被增加,而δθ(S,y-)增加。

3.2輸入表示

給定具有標記實體的句子S =(w 1,w 2,…,wn)e 1(= wp)和e 2(= wt),(p,t∈[1,n],p 6 = t),我們首先將每個單詞變換成實值向量,以提供詞彙特徵。 給定維數d w×| V |的單詞嵌入矩陣W V ,其中V是輸入詞彙,d w是詞向量維度(超引數),我們將每個w i對映到列向量w d i∈R d w。
為了另外捕獲與目標實體的關係的資訊,我們結合了詞位置嵌入(WPE)來反映第i個詞與兩個標記的實體提及之間的相對距離(Zeng et al。,2014; dos Santos et al。 ,2015)。 對於圖1中的給定句子,單詞“和”與實體e 1“飲料”和e 2“糖尿病”的相對距離分別為-1和6。 每個相對距離對映到R d p中隨機初始化的位置向量,其中d p是超引數。 對於給定的詞i,我們分別獲得關於實體e 1和e 2的兩個位置向量w p i,1和w p i,2。 第i個詞的整體詞嵌入是w M i = [(w d i)|) ,(w p i,1)| ,(w p i,2)| ] |。
使用以第i個字為中心的大小為k的滑動視窗,我們將k個連續詞編碼為向量z i∈R(d w + 2d p)k,以將上下文資訊合併為
在這裡插入圖片描述
在輸入的開始和結束處,為了明確定義,重複多次填充令牌。

3.3 Input Attention Mechanism

雖然基於位置的編碼是有用的,但我們推測,它們不足以充分捕捉特定詞語與目標實體的關係以及它們對目標關係關係的影響。我們設計我們的模型,以便自動識別與關係分類相關的輸入句子的部分。
注意機制已成功應用於序列學習任務,如機器翻譯(Bahdanau等,2015; Meng等,2015)和抽象句子摘要(Rush等,2015),以及 諸如建模句子對(Yin et al。,2015)和問答(Santos等,2016)等任務。 迄今為止,這些機制通常被用於允許輸入和輸出序列的對準,例如, 機器翻譯中的來源和目標句子,或者在句子相似性評分和問題回答中的兩個輸入句子之間的對齊。
在我們的工作中,我們將注意力建模的想法應用於涉及異構物件的一種不同型別的場景,即一個句子和兩個實體。 為此,我們試圖讓我們的模型有能力確定哪一部分句子對兩個感興趣的實體最有影響力。 考慮到在具有多個子句的長句中,也許只有單個動詞或名詞可能與給定目標實體有相關關係。
在這裡插入圖片描述
如圖2所示,輸入表示層與對角關注矩陣和卷積輸入組合一起使用。

內容相關矩陣 考慮圖1中的例子,其中非實體詞“原因”在確定關係中具有特殊意義。 幸運的是,我們可以利用這樣一個事實,即在語料同時出現之間,“cause”和“糖尿病”之間也有顯著的聯絡。 我們引入具有值A j ii = f(e j,w i)的兩個對角關注矩陣A j來表徵實體e j和單詞w i之間的語境相關性和連線的強度。 評分函式f被計算為詞w i和實體e j的相應嵌入之間的內積,並且被引數化到網路中並且在訓練過程期間被更新。 給定A j矩陣,我們定義
在這裡插入圖片描述

量化第i個詞相對於第j個實體的相對程度(j∈{1,2})

輸入注意組成。 接下來,我們採用兩個相關因子α1 i和α2 i,並通過簡單平均來模擬其聯合影響來識別關係
在這裡插入圖片描述
除了這個預設選擇,我們還會評估另外兩個變體。 第一個(Variant-1)將字向量連線為
在這裡插入圖片描述
獲得包含與實體1和實體2的關係相關性的該特定單詞的資訊豐富輸入注意元件。第二變體(Variant-2)將關係解釋為兩個實體之間的對映,並且將兩個實體特定權重為 (8)來捕捉它們之間的關係。

在這裡插入圖片描述

基於這些r i,輸入關注元件的最終輸出是矩陣R = [r 1,r 2,…,r n],其中n是句子長度。

3.4 Convolutional Max-Pooling with Secondary Attention

在此操作之後,我們將卷積最大值池與另一個次要關注模型應用於從上一層輸出矩陣R中提取更多抽象的較高階別特徵。

Convolution Layer例如,卷積層可以學習識別諸如三元組之類的短語。 給定我們新生成的輸入注意表示R,因此,我們應用尺寸d c的濾波器作為尺寸d c×k(d w + 2d p)的權重矩陣W f。 然後我們新增一個線性偏差B f,接著是非線性雙曲正切變換,以表示特徵如下:
在這裡插入圖片描述
Attention-Based Pooling. 而不是常規池,我們依賴於基於注意的池策略來確定單個視窗在R *中的重要性,由卷積核心編碼。 這些視窗中的一些可以在輸入中表示有意義的n-gram。 這裡的目標是選擇與第3.1節相關的R *相關的部分,該部分基本上要求關係編碼過程,而忽略與此過程無關的句子部分。
我們繼續首先建立一個相關建模矩陣G,其捕獲來自句子的卷積上下文視窗和3.1節之前介紹的關係類嵌入W L之間的相關連線:
在這裡插入圖片描述
其中U是由網路學習的加權矩陣。
然後我們採用softmax函式來處理這個相關建模矩陣G,得到一個注意集合矩陣A p
在這裡插入圖片描述
其中Gij是G和Apij的(i,j)條目,j是Ap的(i,j)條目。
最後,我們將這個注意集合矩陣與卷積輸出R *相乘,以突出重要的單個短語級元件,並應用最大運算來選擇最顯著的組合(Yin et al。,2015; Santos et al。,2016) 輸出的給定維度。 更準確地說,我們得到如下的輸出表示式w O。(12):
在這裡插入圖片描述
其中w O i是w O的第i個條目,(R * A p)i,j是R * A p的(i,j)條目

3.5訓練過程

我們依靠隨機梯度下降(SGD)來更新關於方程式中的損失函式的引數。 (2)如下:
在這裡插入圖片描述
其中λ和λ1是學習速率,並且包含來自等式的β引數。(2)

4實驗

4.1實驗設定

Dataset and Metric 我們對常用的SemEval-2010任務8資料集(Hendrickx等,2010)進行實驗,其中包含10,717個句子,其中包含九種型別的註釋關係,以及另外的“其他”型別。九種型別是:因果,元件 - 整體,內容容器,實體授權,實體 - 原產地,儀器機構,會員收集,訊息主題和ProductProducer,而關係型別“其他”表示關係表達在句子中不是九種型別。然而,對於上述關係型別中的每一個,兩個實體也可以以相反的順序出現,這意味著該句子需要被視為表示不同的關係,即相應的倒數。例如,原因效應(e 1,e 2)和CauseEffect(e 2,e 1)可以被認為是兩個不同的關係,所以總數| Y |的關係型別是19. SemEval-2010任務8資料集包括一個8000個示例的訓練集,以及其餘的示例的測試集。我們使用官方得分手對九個關係對(不包括其他)中的Macro-F1分數進行評估。
Settings. 我們使用word2vec skip-gram模型(Mikolov等人,2013a)來學習維基百科上的初始詞表示。 利用高斯分佈之後的隨機值對其他矩陣進行初始化。 我們對訓練資料應用交叉驗證過程,以選擇合適的超引數。 該過程產生的選擇在表2中給出。
在這裡插入圖片描述

4.2 Experimental Results

表3提供了我們的多層次注意CNN模型與以前的方法的詳細比較。 我們觀察到,我們的新穎的注意力架構在這種關係分類資料集上實現了新的最先進的結果。 AttInputNN僅依賴於輸入級別的初始注意,在卷積層之後執行標準最大池生成網路輸出w O,其中使用新的目標函式。 使用Att-Input-CNN,我們獲得了87.5%的F1分數,因此已經不僅勝過了SemEval任務的原始獲勝者,基於SVM的方法(82.2%),而且還有著名的CR-CNN模型(84.1 %),相對改善為4.04%,新發布的DRNN(85.8%)相對提高了2.0%,儘管後一種方法取決於史丹佛解析器獲得依賴解析資訊。 我們全面的雙重關注模式Att-PoolingCNN實現了更優惠的88%的F1得分。

表4提供了由方程式給出的模型的兩個變體的實驗結果。 (7)和(8)。 我們的主要模式優於此資料集上的其他變體,儘管當應用於其他任務時,變體仍然可以被證明是有用的。 為了更好地量化我們模型的不同組成部分的貢獻,我們還進行了評估幾個簡化模型的消融研究。 第一個簡化是使用我們的模型沒有輸入注意機制,但與集中注意力層。 第二個消除了注意機制。 第三部分消除了兩種形式的關注,並且另外使用基於內積s = r·w的常規目標函式來進行句子表示r和關係類嵌入w。 我們觀察到,我們所有這三個元件都導致了這些基線的顯著改進。

4.3 Detailed Analysis

Primary Attention. 為了檢查我們模型的內在作用,我們考慮了我們的多層次關注模型的主要關注矩陣,用於以下隨機選擇的句子:令人厭惡的場景是對她租用[房間] e 1的兄弟菲利普進行報復 在這個公寓[房子] e 2在倫巴第街。
圖3繪製了輸入關注層的單詞級注意力值,作為一個例子,使用該語句中每個單詞的計算注意力值。 我們發現“內在”一詞被賦予了最高的關注度,而“房間”和“房子”等詞也被認為是重要的。 根據作為ComponentWhole(e 1,e 2)關係的地面真相標籤,這顯然是明智的。 此外,我們觀察到,與“目標”關係相關的“這個”這樣的詞語確實有較低的關注度。

關係最重要的特徵 表5列出了每個關係類別y中對於確定關係分類的分數的貢獻的排名最高的三元組。 回想方程中δθ(x,y)的定義。(1)。 在網路中,我們追蹤對於每個句子S i的δθ(S i,y)最有助於正確分類的三角形。 然後,我們根據其總貢獻對測試集中的句子中的所有這樣的三元組進行排序,並列出頂級的三元組。 *在表5中,我們看到,推論這些關係確實非常有用。 例如,因果效應(e 2,e 1)的頂部三元組是“由…引起的”,這強烈地意味著第一個實體是由後者引起的效應。 類似地,Entity-Origin(e 1,e 2)的頂部三元組是“從e 2”,這表明e 2可以是原始位置,實體e 1可能位於該原始位置。

錯誤分析。 此外,我們研究了我們的模型產生的一些錯誤分類。 以下是錯誤分類句子的典型例子:該句子被錯誤地歸類為屬於“其他”類別,而實際標籤則為Message-Topic(e 1,e 2)。 短語“旋轉”並不出現在訓練資料中,而是以隱喻的方式使用,而不是原來的轉身感覺,使得模型難以識別語義連線。 另一個常見的問題源於“… e 1 e 2 …”形式的句子,例如:
它們分別屬於三個不同的關係類別,分別是全部(e 2,e 1),實體 - 原始(e 2,e 1)和工具 - 機構(e 1,e 2) 文字,並且上下文不是特別有用。 在這種情況下,可以想象到更多的資訊詞嵌入可以幫助收斂。 最後,我們研究了兩種主要方法的收斂行為。 我們繪製圖4中Att-Input-CNN和Att-Pooling-CNN模型中的每個迭代的效能。可以看出,Att-Input-CNN非常順利地收斂到其最終的F1分數,而對於AttPooling- CNN模型,其中包括一個額外的關注層,這兩個注意層的共同作用引起更強的反向傳播效應。 一方面,這導致結果曲線中的蹺蹺板現象,但另一方面,它使我們能夠獲得具有稍高的F1分數的更適合的模型。

5 Conclusion

我們提出了一種新的目標和新形式的注意機制,應用於兩個不同層次的CNN架構。 我們的研究結果表明,這種簡單但有效的模型能夠以結構化模型和NLP資源的形式,勝過先前基於更豐富的先驗知識的工作。 我們期望這種架構也超出了關係分類的具體任務,我們打算在未來的工作中探索

相關文章