【論文閱讀筆記】An Improved Neural Baseline for Temporal Relation Extraction

olivia喵喵喵發表於2020-11-20

An Improved Neural Baseline for Temporal Relation Extraction

一種改進的時間關係提取的神經基線

此論文為關係提取領域,以下的閱讀筆記為作者的文獻翻譯及本人的理解,如有錯誤請提出來。

·摘要
  確定事件之間的時間關係(例如之前或之後)已經成為具有挑戰性的自然語言理解任務,部分原因是由於難以生成大量高質量的訓練資料。因此,神經方法尚未被廣泛使用,或僅顯示出中等程度的改進。本文提出了一種新的神經系統,在兩個基準資料集上,該系統的準確度絕對比以前的最佳系統提高了10%(錯誤減少了25%)。所提出的系統在最新的MATRES資料集上進行了訓練,並應用了上下文化詞嵌入,時間常識知識庫的連體編碼器以及透過整數線性規劃(ILP)進行的全域性推理。我們建議新方法可以作為該領域未來研究的堅實基礎。
關鍵技術:時間關係提取,處理事件位置,常識編碼器(CSE)

1.背景與簡介
  確定事件之間的時間關係(例如,before或after)一直是一項具有挑戰性的自然語言理解任務,部分原因是難以生成大量高質量的訓練資料。因此,神經方法沒有被廣泛應用於此,或僅顯示出適度的改善。本文提出了一種新的神經系統,在兩個基準資料集上,該系統的精度比以前的最佳系統提高了約10%(誤差降低了25%)。所提出的系統是在最先進的MATRES資料集上訓練的,並應用了上下文化的單詞嵌入、時態常識知識庫的常識編碼器和透過整數線性規劃的全域性推理。我們認為,新的方法可以作為這一領域未來研究的堅實基礎。
  時間關係(TempRel)提取已被認為是自然語言中理解時間的主要組成部分。但是,眾所周知,時間關係的註釋過程既耗時又困難,甚至對於人類來說也是如此,現有的資料集通常很小而且註釋者間協議(IAA)較低;儘管如今深度學習取得了重大進展,但神經方法尚未廣泛用於此任務,或僅顯示了適度的改進。我們認為重要的是要理解:是因為我們錯過了“神奇的”神經體系結構,還是因為訓練資料集很小,還是因為應該提高資料集的質量?
  最近,作者引入了一個新的資料集,稱為起點的多軸時間關係(MATRES)。MATRES的大小仍然相對較小(15K TempRels),但是由於其改進的任務定義和註釋準則,其註釋質量更高。本文使用MATRES資料集證明了長短期記憶(LSTM)系統可以輕易地勝過之前的最新系統CogCompTime,大幅度地提高準確度。標準LSTM系統相對於基於MATRES的基於特徵的系統可以顯著改善的事實表明,神經方法相形見絀主要由於註釋的質量,而不是特定的神經體系結構或資料量小。
  為了更好地理解標準LSTM方法,我們廣泛比較了各種詞嵌入技術的使用年齡,包括word2vec,GloVe,FastText,ELMo和BERT,並展示了它們對時間關係提取的影響。此外,我們透過從TEMPROB的更新版本中注入知識邊緣來進一步改善LSTM系統,TEMPROB是一種自動誘導的時間常識知識庫,可在事件之間提供典型的時間關係。總之,這些元件的F1指標和準確性比CogCompTime提高了約10%。 提議的系統是公開的,可以作為將來研究的強大基準。
2.相關工作(這個部分是我根據本文用到的模型補充的,便於理解)
  本節介紹與本文相關的一些技術概要,包括CogCompTime,TEMPROB(時間常識知識庫),孿生神經網路。
2.1CogCompTime
  CogCompTime是該領域目前最先進的系統,CogCompTime系統如圖2.1,共有6個元件,分別是原始文字元件,過程元件,時間元件,事件提取元件,時間關係元件和視覺化元件。

                圖2.1  CogCompTime系統(相關內容見)

  如圖中的例子,CogCompTime是把文字中的時間和事件關係提取出來,然後視覺化給使用者。如圖2.1中的例子,原始文字是I worked out after finishing my homework yesterday.這句話經過過程元件進行Lemma,POS,SRL處理,繼續在時間元件中將文字中的時間提取出來,並將時間進行標準化。這句話中將時間yesterday提取出來並標準化為2018-05-31,接著用事件提取元件將文字中的事件提取出來,在例句中事件有兩個E1:worked,E2:finishing。再用時間關係元件識別出兩個事件之間的時間關係,在該例句中兩事件之間的時間關係為after,則E1 is after E2,E1&E2 both on T1。最後透過視覺化元件把時間和事件之間的時間關係視覺化給使用者。
2.2TEMPROB(時間關係機率知識庫)
  時間關係機率知識庫TEMPROB的全程為Temproal relation PRObabilistic knowledge Base。TEMPROB可以簡單的理解為計數模型,TEMPROB就是透過把紐約時報近20年(1987—2007)的文章中的事件之間的時間關係提取出來,開發了這樣一個在新聞領域的機率知識庫。TEMPROB如圖2.2所示。
在這裡插入圖片描述

圖2.2 TEMPROB時間關係機率知識庫(相關內容見https://blog.csdn.net/qq_25408127/article/details/105902479?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160094648319724836719928%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160094648319724836719928&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-105902479.first_rank_ecpm_v3_pc_rank_v2&utm_term=Improving+temporal+relation+ex&spm=1018.2118.3001.4187)

  可以從圖2.2中看出來,TEMPROB就是簡單的計數模型。如事件對(ask,help)在統計中有86%是before,有9%是after,則可以近似的認為事件對(ask,help)之間的時間關係是before;事件對(attend,schedule)在統計中有1%是before,有82%是after,則可以近似的認為事件對(attend,schedule)之間的時間關係是after;事件對(accept,propose)在統計中有10%是before,有77%是after,則可以近似的認為事件對(accept,propose)之間的時間關係是after;事件對(die,explode)在統計中有14%是before,有83%是after,則可以近似的認為事件對(die,explode)之間的時間關係是after。可以看出該知識庫有個缺陷,TEMPROB就是簡單的計數模型,對於一些罕見的事件對之間的時間關係並不可靠,作者根據這個缺陷提出了文字中的常識編碼器(CSE),詳見3.2。
2.3孿生神經網路
  孿生神經網路是很經典的判別模型,最開始提出孿生神經網路是為了判斷兩個簽名字跡是不是由同一個人籤的。孿生神經網路的輸入端是兩個簽名字跡,輸出端輸出的是兩個簽名之間的相似度距離衡量,兩個簽名經過的過程以及神經網路是相同的,這也是孿生神經網路為什麼稱為孿生神將網路的原因之一。孿生神經網路如圖2.3所示。
在這裡插入圖片描述

圖2.3 孿生神經網路(相關內容見https://blog.csdn.net/fnoi2014xtx/article/details/106888205?biz_id=102&utm_term=Signature%20ver-%20ification%20using&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-106888205&spm=1018.2118.3001.4187)

3.時間關係提取
  這一節介紹本篇論文所介紹的模型及技術,包括處理事件位置和常識編碼器(CSE)。
3.1處理事件位置
  文字每個時間關係都與兩個事件相關聯,對於同一文字,不同的事件對具有不同的關係,因此在我們為該任務訓練LSTM時,指出這些事件的位置至關重要。處理事件位置有以下兩種方法,方法介紹如下:
  1.最直接的方法是將兩個時間步驟(週期)中與這些事件的位置相對應的隱藏狀態串聯起來(圖3.1a)。
在這裡插入圖片描述
圖3.1a

  2.透過在每個事件之前和之後立即新增XML標籤來處理此問題(圖3.1b)。 例如,在句子After eating dinner, he slept comfortably.兩個事件(eating ,slept )用黑體顯示,它們會將序列轉換為After eating dinner, he slept comfortably.XML標記最初是在用於關係提取的位置指示器的名稱下提出的,可唯一地將事件位置劃分為LSTM,這樣LSTM的最終輸出可以用作這些事件及其上下文的表示。
在這裡插入圖片描述

圖3.1b

  我們將在本文中比較這兩種方法,並且我們稍後在3.3中所要展示的,直接連線方法已經和XML標記法一樣好。
3.2常識編碼器(CSE)
  在表達時間關係的自然出現的文字中包含since,when或until通常是不明確的;但是,對於事件,人類仍然可以使用常識來推斷時間關係。例如,即使沒有上下文,我們也知道死亡通常發生在爆炸之後,而排程通常在參加之前等。TEMPROB是透過彙總自動從大型語料庫中提取的時間關係來獲取此類知識的最初嘗試。所得的知識庫TEMPROB包含觀察到的元組(v1,v2,r)的頻率,這些頻率表示動詞1和動詞2具有關係r的機率,並且顯示出用於時間關係提取的有用資源。詳見2.2。
  但是,TEMPROB是一個簡單的計數模型,對於看不見(或罕見)的元組,它會失敗(或不可靠)。例如,我們在語料庫中看到(ambush,die)的頻率要比(attack,die)少,因此觀察到的(ambush,die)的頻率在可靠性之前或之後都不那麼可靠。 但是,由於“ ambush”在語義上與“ attack”相似,因此(attack,die)的統計資訊實際上可以用作(ambush,die)的輔助訊號。受此想法的啟發,我們引入了常識編碼器(CSE):我們透過孿生神經網路擬合了TEMPROB的更新版本,該模型透過每個動詞的嵌入結果推廣到看不見的元組。在開始時,我們嘗試直接使用輸出(即標量),而對效能的影響可以忽略不計。 因此,這裡我們將CSE輸出離散化,將其更改為分類嵌入,將其與LSTM輸出連線,然後生成置信度得分。
在這裡插入圖片描述

   圖3.2 作者提出的模型

  可以用這個例子來理解作者提出的模型,比如說LSTM兩個時間步的輸入分別是:I ambush in somewhere.和Someone is died.這兩句文字中隱藏狀態就是(ambush,died),由於這個事件對(ambush,died)的時間關係比較罕見,所以作者用圖3.2中的常識編碼器©,在知識庫裡找到和(ambush,died)語義相近的(attack,died),輸出ambush和attack的相似程度,做輔助訊號。然後輔助訊號和(ambush,died)一起到圖3.2(d),可以根據(attack,died)的時間關係輸出(ambush,died)的時間關係。

4.實驗
  本章節討論了資料集的構建,討論不同模型以及不同詞嵌入對結果的影響。
4.1資料
  MATRES資料集包含來自TempEval研討會的275篇新聞文章,其中包含新註釋的事件和時間關係。它包含3個部分:TimeBank(TB),AQUAINT(AQ)和Platinum(PT)。 我們遵循官方劃分(即用於培訓的TB + AQ和用於測試的PT),並且隨著開發的發展調整學習率和時代,進一步預留了20%的培訓資料。我們還將在另一個資料集TCR上展示我們的效果,其中包含時間和因果關係,我們只需要時間部分。兩個資料集的標籤集在before,after,equal和vague。具體資料情況如表4.1所示。
在這裡插入圖片描述

表4.1 資料情況

4.2結果和結論
  我們將MATRES的最新技術與最新版本的CogCompTime進行比較。此外我們除了使用F1指標還使用了另外兩個指標進行更徹底的比較:分類準確度(acc。)和時間感知Faware,其中時間感知分數是專門用於衡量時間關係識別模型的指標。 我們還在實驗中報告了這三個指標的平均值。
在這裡插入圖片描述

表4.2 在MATRES資料集上實驗結果

  表4.2比較了處理事件位置中討論的兩種不同方式。位置指示器(P.I.)和簡單串聯(Con cat)。 我們廣泛研究了各種預訓練的單詞嵌入的用法,包括常規嵌入和上下文嵌入的嵌入; 除了輸入嵌入,我們將所有其他引數保持不變。 我們在PyTorch中使用了交叉熵損失和StepLR最佳化器,將學習率降低了0.5個10個週期(對它不敏感的效能)。與之前使用的P.I. 我們發現只有兩個例外(表4.2中有下劃線),Concat系統在各種嵌入下都獲得了一致的收益和指標。 此外,儘管在使用ELMo或BERT之間未觀察到統計學意義,但上下文化嵌入(ELMo和BERT)有望比傳統嵌入顯著改善。
  鑑於以上觀察,我們在表4.2中進一步將常識編碼器(CSE)與ELMo和BERT合併到“ Concat”中。
  我們首先看到,在所有指標下,對於ELMo和BERT來說,CSE在Concat之上都得到了改善,這證實了TEMPROB的優勢; 其次,與CogCompTime相比,建議的Con cat + CSE在準確性和F1方面獲得了約10%的絕對增益,在Faware方面的意識得分為5%,在三項平均指標中達到了8%。 粗略地說,LSTM貢獻2%,上下文嵌入4%,CSE貢獻2%,這是8%的收益。 同樣,在使用ELMo和BERT之間沒有觀察到統計學意義。
在這裡插入圖片描述

表4.3 在TCR資料集上的實驗結果

  表4.3進一步將CogCompTime和建議的Concat + CSE系統應用於稱為TCR的不同測試集。兩種系統均取得了較好的成績(建議TCR比MATRES容易),而建議的系統在三指標平均指標下,它仍然比CogCompTime快大約8%,這與我們對MATRES的改進保持一致。
  我們可以得出如下 結論:在自然語言處理(NLP)中,時間關係提取一直是重要但具有挑戰性的任務。缺乏高質量的資料和以前的註釋方案定義的學習問題的困難抑制了基於神經的方法的效能。LSTM可以在很大程度上改善MATRES和TCR資料集上基於特徵的最新CogCompTime的發現,這不僅為社群提供了強大的基線,而且表明MATRES可能更好地定義了學習問題 和TCR。因此,我們應該沿著這個方向前進,以收集更多高質量的資料,這可以在將來促進更高階的學習演算法。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69978907/viewspace-2735735/,如需轉載,請註明出處,否則將追究法律責任。

相關文章