論文閱讀筆記:A Two-Step Approach for Event Factuality Identification

我唱歌比較走心發表於2020-12-03

A Two-Step Approach for Event Factuality Identification

期刊/會議:2015 International Conference on Asian Language Processing (IALP)

原文連結:https://ieeexplore.ieee.org/document/7451542

目錄

摘要

概念梳理

事件真實性

Saudi等人的工作

FactBank語料庫

方法和模型

兩步走的方法

監督學習模型

Basic Features

Upper ESP Features

基於規則的模型

實驗和結論


摘要

原文的表述

本文著重於確定事件的事實性。與以往的基於規則的方法不同,本文提出了一種將機器學習和基於規則的方法相結合的新穎的兩步方法。首先,構造一個最大熵模型來確定事件確定性程度是否被表達。然後,引入了一組包含提示(cue)和範圍(scope)檢測的規則,以進一步標識各種事件事實值。實驗結果表明,與基於規則的最新系統相比,我們的兩步式方法可以實現更高的效能。

本文的工作是按照事件的可信度能否被確定,將其分為兩類(具體如何劃分在下文會提到),一類使用最大熵模型,另一類使用基於規則的方法,提出兩種方法相結合的方式,來確定的事件的真實性。

 

概念梳理

事件真實性

描述了一個事件會發生的概率,比如對於如下兩句話:

在句子E1中,事件是rain,前面有may修飾,代表可能下雨,所以下雨這個事件是可能發生的。

在句子E2中,事件是go,根據句子的意思判斷,go這個事件是一定發生的。

需要注意的是,上面的“可能發生”和“一定發生”只是對於Tom而言的,因為這是Tom說的話,而這個句子的AUTHOR(寫下這句話的人),並沒有對這兩個事件的真實性做出承諾。

所以事件的事實性有一個或多個相關來源(relevant sources,比如上文的兩句話就分別有兩個來源。句子中的每個事件至少有一個來源,即文字的作者(寫這個句子的人)。因此,在本文中,事件的事實性和現實生活無關,只和這個事件的相關來源對這個事件真實性的評估有關。

 

Saudi等人的工作

 
提出了一種基於規則的模型,該模型採取自頂向下遍歷句法依存樹的方法。
 
提出了FactBank語料庫,提供了事件真實性的註釋。
 
 
 

FactBank語料庫

 
語料庫中共有208個文件,3864個句子,9492個事件,13506個事件真實性標註的值。主要包含如下標註的資訊:
 
Factuality value: 也就是事件真實性的表示,包含兩個部分: modality and polarity,即形態和極性,modality包含 CT (certain), PR (probable), PS (possible), U (underspecified), polarity包含 + (positive), - (negative), u(underspecified),進行兩兩組合,有如下的幾種形式:CT+, CT-, PR+, PS+, Uu等等。比如CT+代表一定發生,PR-代表可能不會發生,Uu代表無法判斷這個事件的真實性。
 
 
ESP:FactBank中對事件event的定義也叫做 ESPs(Event Selecting Predicates),根據是否引入新的來源來判斷事件的真實性,可以分成SIPs(Source Introducing Predicates) 和NSIPs (Non-Source Introducing Predicates),SIP和NSIPs的概念十分重要,解釋如下:
 
 
 
Relevant source and relevant source ID: 一般事件的相關的來源都是採取巢狀的形式表示,如:Tom_AUTHOR,如果relevant source ID是Tom,表示為s1,那麼Tom_AUTHOR應該被表示為s1_s0,s0代表AUTHOR,事件相關源的定義如下:
 
 
 
 

Source role: 有cognizer和anchor兩種,cognizer是直接致力於事件真實性的來源,而anchor則是代表cognizer對從屬事件的真實性承諾的來源。如果事件的Source role不存在,那麼事件的真實性就是Uu。對於句子E1中的事件rain而言,Tom是cognizer,AUTHOR既是cognizer也是anchor,AUTHOR是cognizer,因為它對rain這個事件的真實性也有貢獻,是anchor的原因是因為它是“Tom對rain這個事件做出真實性承諾”的來源。

SLINK:即從屬連結(Subordination Link),SLINK用來表示兩個事件之間的關係,包括MODAL, EVIDENTIAL, FACTIVE等,比如對於predicted和demise兩個事件,若SLINK表示為predicted_demise_EVIDENTIAL,那麼就代表這兩個事件之間有一個可信的(evidential)連線。

 

方法和模型

兩步走的方法

首先對於原始的事件,將其分成nonUu/Uu/OTHER三個類別,nonUu代表事件有著明確的可信度,如CT+/-, PR+/-, PS+/-,Un則代表事件真實性無法確定,OTHER是特殊情況,一般數量很少。這一步是通過監督學習模型完成的(最大熵模型),作者認為用機器學習的模型先進行分類之後,在剩下的那些nonUu類別中,使用基於規則的方法能夠更好的識別除了Uu之外的其它類別,即CT+/-, PR+/-, PS+/-。

 

監督學習模型

Basic Features

模型中需要考慮如下Basic Features,即機器學習的一些特徵:

當前事件,當前事件的POS(在句子的位置),當前事件的Relevant source and relevant source ID(相關源),事件的Source role(源角色),事件在句法依存樹中的深度,事件的polarity and modality(形態和極性),事件的時態(如果它是動詞),當前事件是否為SIP,事件的SLINK(從屬連結)。

事件的polarity and modality在語料庫FactBank中已經標註了,標註由兩部分組成:POS/NEG,以及一個輔助的情態動詞。比如POS_may代表一個事件被輔助情態動詞may修飾;NEG_could代表事件被情態動詞could修飾,同時這個事件是否定的。

 

Upper ESP Features

Saudi的基於規則的模型中,充分利用了上級的ESPs(upper ESPs)和事件之間的關係來計算事件的真實性,基於這一點,作者提出了一些上級的ESP特徵來增強監督學習模型,特徵如下:

當前事件的上層SIP,事件的上層SIP觸發的評估級別,上層ESP與事件之間的依賴關係,上層ESP的類別,上層ESP是SIP還是NSIP

事件的上層ESP是依賴關係樹中,和當前事件最接近的ESP節點。評估級別是從上到下遍歷依賴關係樹時,每次找到新的SIP時建立的依賴關係嵌入的級別(每次找到SIP時會有一個新的級別)

每個句子的預設評估級別為L0,與句子本身相對應。考慮以下句子:
 
 
E3具有三個評估級別:L0,L1,L2。事件told和said是SIP(需要引入新的來源來判斷事件的真實性),它們觸發L0,L1並分別介紹Tom,John。told事件只有預設來源AUTHOR(句子中沒有任何其它人對told這個事件負責);said事件有兩個來源:AUTHOR,Tom_AUTHOR;事件go有四個來源:AUTHOR,Tom_AUTHOR,John_AUTHOR,John_Tom_AUTHOR。 attend事件受go事件的支配(go...to...attent),事件go是一個NSIP(沒有引入新的來源來判斷事件的真實性)。因此,事件go與attent的來源相同。
 
將SIP分為3類,共20類:
 
  • 預設型別,包括以下4類:disclose, know that, forget, pretend
  • 意見和報告型別,包括以下15類:say, imply, think, sure, deny, know_if,conjecture, lookLike, skeptical, doubt, fear, unsure,announce, expected, imagine
  • 疑問型別,僅包括1類:wonder
型別分組,19個類別:
 
  • 預設型別,僅包括I類:stop
  • 隱式型別,包括以下6類:manage,fail, cause, refuse, hesitate, attempt.
  • 認知型別,包括以下11類:certainty, impossibility, probability, improbability,possibility, uncertainty, evidence, confirm, suggest,appear, consider.
  • 投影型別,僅包括1類:want
 

基於規則的模型

使用了機器學習模型進行分類後,需要用基於規則的模型來進一步判斷nonUu分類中事件的可信度是CT+/-, PR+/-, PS+/-中的哪個類別,這裡需要用到線索詞(cue)和作用範圍(scope的概念。線索詞是不確定或者有否定含義的詞,作用範圍是線索詞在句子中能夠影響的範圍。

線索詞如下:

表示否定的詞:no, not, never, neither, without, et al.

表示可能(PR)的詞:probable, likely, expect, appear, et al.

表示可能(PS)的詞:possible, may, might, et al.

對於線索詞的作用範圍,這裡採取了一個簡單的方式:如果線索詞引導了一個從句,那麼這個線索詞的作用範圍就是這個從句,如果沒有引導一個從句,那麼作用範圍是線索詞前面的1個詞和後面的4個詞

獲取事件的可信度,有如下的規則:

  • 如果事件處於否定範圍內,或者事件的SLINK為COUNTER_FACTlVE,則事件事實性的極性為負,並且不允許該事件出現在任何非限制性從句中,原因是該句子的核心含義幾乎具有與非限制性子句無關,也就是說,出現在非限制性從句中的事件沒有什麼價值。
  • 如果事件在PS或PR線索詞的作用範圍內,並且該事件也不允許在任何非限制性從句中,則事件事實性的形式為PS或PR。

為了有效地識別CT +和Uu,在分析句子的句法構造後採用了以下規則集,稱為規則集2:

  • 如果事件的source role既是anchor又是cognizer,則事件的事實性為CT +。
  • 如果事件在引用語中、目的性狀語從句中、條件結構中,則事件的事實性為Uu;如果事件屬於是否從句(whether-clause),則事件事實性的極性為u。從語法的角度來看,當事件在這些上下文中時,它們通常不提供事件的事實性。

 

實驗和結論

  • 使用Mallet 2來訓練最大熵分類器,並使用Stanford Parser3來建立組成樹和依賴樹。
  • 為了與Sauri的系統具有可比性,使用TimeBank作為訓練集,而使用ATimeML語料庫作為評估效能的測試集。
  • 測試語料庫中總共有589個句子和2192個事實值。
  • 測量指標:precision, recall, F1-measure(精度,召回率,FI值)以及巨集觀和微觀平均(macro- and micro-averaging)
  • 考慮CT +,CT-,PR +,PS +,Uu,因為其它事件可信度的類別太少了。
  • Sauri的基於規則的De Facto模型作為baseline

 

表1:語料庫中可信度類別分佈情況

事實值CT +和Uu的例項在語料庫中佔大多數

 

表2:系統中監督學習模型的效能

可以看到,如果使用upper ESP功能,效能將得到改善。儘管Uu的效能不如基線,但與Sauri的系統相比,我們在nonUu類別中得到了和基線相同的F1值。

 

表3,4:系統的最終效能

 
在表3中,如果不考慮upper ESP功能,系統將獲得比基線更好的巨集平均,但更低的微平均。在考慮了upper ESP功能後,巨集平均和微平均均高於基線,這表明可以獲得更好的CT +,CT-,PR +,PS +,Uu效能,識別真實性更加準確。
 
表4顯示了所有系統的主要事實型別的F1值。可以預期,CT +和Uu的F1值在所有系統中都很高,因為它們的例項最多。在作者提出的系統中,CT-的F1值是第二高的,這表明規則集2在識別事實的負極性方面做得很好。
 
在沒有upper ESP功能的系統中,儘管CT+和Uu的效能低於Sauri系統,但獲得了更好的CT-,PR +,PS+效能,這表明線上索詞和作用範圍的幫助下識別這些事實值非常有效。
 
考慮了upper ESP後,所有事實型別的F1值(PS +除外)均得到改善,所有這些F1值均高於Sauri系統。這些結果表明,由於上層ESP與嵌入事件的真實性之間存在密切的關係,因此在考慮最大熵模型中的上層ESP特徵後,可以對更多事件進行正確分類。此外,該系統中也使用更少的規則,因此該系統比Sauri的模型具有更好的通用性。
 
 
 
 
 
 

 

 

 

相關文章