論文閱讀筆記:A Two-Step Approach for Event Factuality Identification
A Two-Step Approach for Event Factuality Identification
期刊/會議:2015 International Conference on Asian Language Processing (IALP)
原文連結:https://ieeexplore.ieee.org/document/7451542
目錄
摘要
原文的表述
本文著重於確定事件的事實性。與以往的基於規則的方法不同,本文提出了一種將機器學習和基於規則的方法相結合的新穎的兩步方法。首先,構造一個最大熵模型來確定事件確定性程度是否被表達。然後,引入了一組包含提示(cue)和範圍(scope)檢測的規則,以進一步標識各種事件事實值。實驗結果表明,與基於規則的最新系統相比,我們的兩步式方法可以實現更高的效能。
本文的工作是按照事件的可信度能否被確定,將其分為兩類(具體如何劃分在下文會提到),一類使用最大熵模型,另一類使用基於規則的方法,提出兩種方法相結合的方式,來確定的事件的真實性。
概念梳理
事件真實性
描述了一個事件會發生的概率,比如對於如下兩句話:
在句子E1中,事件是rain,前面有may修飾,代表可能下雨,所以下雨這個事件是可能發生的。
在句子E2中,事件是go,根據句子的意思判斷,go這個事件是一定發生的。
需要注意的是,上面的“可能發生”和“一定發生”只是對於Tom而言的,因為這是Tom說的話,而這個句子的AUTHOR(寫下這句話的人),並沒有對這兩個事件的真實性做出承諾。
所以事件的事實性有一個或多個相關來源(relevant sources),比如上文的兩句話就分別有兩個來源。句子中的每個事件至少有一個來源,即文字的作者(寫這個句子的人)。因此,在本文中,事件的事實性和現實生活無關,只和這個事件的相關來源對這個事件真實性的評估有關。
Saudi等人的工作
FactBank語料庫
Source role: 有cognizer和anchor兩種,cognizer是直接致力於事件真實性的來源,而anchor則是代表cognizer對從屬事件的真實性承諾的來源。如果事件的Source role不存在,那麼事件的真實性就是Uu。對於句子E1中的事件rain而言,Tom是cognizer,AUTHOR既是cognizer也是anchor,AUTHOR是cognizer,因為它對rain這個事件的真實性也有貢獻,是anchor的原因是因為它是“Tom對rain這個事件做出真實性承諾”的來源。
SLINK:即從屬連結(Subordination Link),SLINK用來表示兩個事件之間的關係,包括MODAL, EVIDENTIAL, FACTIVE等,比如對於predicted和demise兩個事件,若SLINK表示為predicted_demise_EVIDENTIAL,那麼就代表這兩個事件之間有一個可信的(evidential)連線。
方法和模型
兩步走的方法
首先對於原始的事件,將其分成nonUu/Uu/OTHER三個類別,nonUu代表事件有著明確的可信度,如CT+/-, PR+/-, PS+/-,Un則代表事件真實性無法確定,OTHER是特殊情況,一般數量很少。這一步是通過監督學習模型完成的(最大熵模型),作者認為用機器學習的模型先進行分類之後,在剩下的那些nonUu類別中,使用基於規則的方法能夠更好的識別除了Uu之外的其它類別,即CT+/-, PR+/-, PS+/-。
監督學習模型
Basic Features
模型中需要考慮如下Basic Features,即機器學習的一些特徵:
當前事件,當前事件的POS(在句子的位置),當前事件的Relevant source and relevant source ID(相關源),事件的Source role(源角色),事件在句法依存樹中的深度,事件的polarity and modality(形態和極性),事件的時態(如果它是動詞),當前事件是否為SIP,事件的SLINK(從屬連結)。
事件的polarity and modality在語料庫FactBank中已經標註了,標註由兩部分組成:POS/NEG,以及一個輔助的情態動詞。比如POS_may代表一個事件被輔助情態動詞may修飾;NEG_could代表事件被情態動詞could修飾,同時這個事件是否定的。
Upper ESP Features
在Saudi的基於規則的模型中,充分利用了上級的ESPs(upper ESPs)和事件之間的關係來計算事件的真實性,基於這一點,作者提出了一些上級的ESP特徵來增強監督學習模型,特徵如下:
當前事件的上層SIP,事件的上層SIP觸發的評估級別,上層ESP與事件之間的依賴關係,上層ESP的類別,上層ESP是SIP還是NSIP
事件的上層ESP是依賴關係樹中,和當前事件最接近的ESP節點。評估級別是從上到下遍歷依賴關係樹時,每次找到新的SIP時建立的依賴關係嵌入的級別(每次找到SIP時會有一個新的級別)。
- 預設型別,包括以下4類:disclose, know that, forget, pretend
- 意見和報告型別,包括以下15類:say, imply, think, sure, deny, know_if,conjecture, lookLike, skeptical, doubt, fear, unsure,announce, expected, imagine
- 疑問型別,僅包括1類:wonder
- 預設型別,僅包括I類:stop
- 隱式型別,包括以下6類:manage,fail, cause, refuse, hesitate, attempt.
- 認知型別,包括以下11類:certainty, impossibility, probability, improbability,possibility, uncertainty, evidence, confirm, suggest,appear, consider.
- 投影型別,僅包括1類:want
基於規則的模型
使用了機器學習模型進行分類後,需要用基於規則的模型來進一步判斷nonUu分類中事件的可信度是CT+/-, PR+/-, PS+/-中的哪個類別,這裡需要用到線索詞(cue)和作用範圍(scope)的概念。線索詞是不確定或者有否定含義的詞,作用範圍是線索詞在句子中能夠影響的範圍。
線索詞如下:
表示否定的詞:no, not, never, neither, without, et al.
表示可能(PR)的詞:probable, likely, expect, appear, et al.
表示可能(PS)的詞:possible, may, might, et al.
對於線索詞的作用範圍,這裡採取了一個簡單的方式:如果線索詞引導了一個從句,那麼這個線索詞的作用範圍就是這個從句,如果沒有引導一個從句,那麼作用範圍是線索詞前面的1個詞和後面的4個詞。
獲取事件的可信度,有如下的規則:
- 如果事件處於否定範圍內,或者事件的SLINK為COUNTER_FACTlVE,則事件事實性的極性為負,並且不允許該事件出現在任何非限制性從句中,原因是該句子的核心含義幾乎具有與非限制性子句無關,也就是說,出現在非限制性從句中的事件沒有什麼價值。
- 如果事件在PS或PR線索詞的作用範圍內,並且該事件也不允許在任何非限制性從句中,則事件事實性的形式為PS或PR。
為了有效地識別CT +和Uu,在分析句子的句法構造後採用了以下規則集,稱為規則集2:
- 如果事件的source role既是anchor又是cognizer,則事件的事實性為CT +。
- 如果事件在引用語中、目的性狀語從句中、條件結構中,則事件的事實性為Uu;如果事件屬於是否從句(whether-clause),則事件事實性的極性為u。從語法的角度來看,當事件在這些上下文中時,它們通常不提供事件的事實性。
實驗和結論
- 使用Mallet 2來訓練最大熵分類器,並使用Stanford Parser3來建立組成樹和依賴樹。
- 為了與Sauri的系統具有可比性,使用TimeBank作為訓練集,而使用ATimeML語料庫作為評估效能的測試集。
- 測試語料庫中總共有589個句子和2192個事實值。
- 測量指標:precision, recall, F1-measure(精度,召回率,FI值)以及巨集觀和微觀平均(macro- and micro-averaging)
- 考慮CT +,CT-,PR +,PS +,Uu,因為其它事件可信度的類別太少了。
- 將Sauri的基於規則的De Facto模型作為baseline
表1:語料庫中可信度類別分佈情況
事實值CT +和Uu的例項在語料庫中佔大多數
表2:系統中監督學習模型的效能
可以看到,如果使用upper ESP功能,效能將得到改善。儘管Uu的效能不如基線,但與Sauri的系統相比,我們在nonUu類別中得到了和基線相同的F1值。
表3,4:系統的最終效能
相關文章
- MapReduce 論文閱讀筆記筆記
- SSD論文閱讀筆記筆記
- AutoEmbedding論文閱讀筆記筆記
- CornerNet-Lite論文閱讀筆記筆記
- [論文閱讀筆記] Structural Deep Network Embedding筆記Struct
- Visual Instruction Tuning論文閱讀筆記Struct筆記
- Pixel Aligned Language Models論文閱讀筆記筆記
- 【論文閱讀筆記】Transformer——《Attention Is All You Need》筆記ORM
- Reading Face, Read Health論文閱讀筆記筆記
- ACL2020論文閱讀筆記:BART筆記
- 兩篇知識表示方面的論文閱讀筆記筆記
- 論文閱讀:SiameseFC
- GeoChat論文閱讀
- 【論文閱讀筆記】多模態大語言模型必讀 —— LLaVA筆記模型
- [論文閱讀筆記] Adversarial Learning on Heterogeneous Information Networks筆記ORM
- 論文閱讀筆記:Fully Convolutional Networks for Semantic Segmentation筆記Segmentation
- 【論文閱讀筆記】An Improved Neural Baseline for Temporal Relation Extraction筆記
- 共識演算法論文閱讀筆記1-hotstuff演算法筆記
- Raft論文讀書筆記Raft筆記
- 9/12讀論文筆記筆記
- [論文閱讀筆記] Community aware random walk for network embedding筆記Unityrandom
- 如何閱讀科研論文
- 阿里DMR論文閱讀阿里
- 《A Discriminative Feature Learning Approach for Deep Face Recognition》閱讀筆記APP筆記
- 並行多工學習論文閱讀(五):論文閱讀總結並行
- [論文閱讀筆記] Adversarial Mutual Information Learning for Network Embedding筆記ORM
- 論文閱讀筆記:LINE: Large-scale Information Network Embedding筆記ORM
- 論文閱讀筆記(五):Hire-MLP Vision MLP via Hierarchical Rearrangement筆記
- 論文閱讀筆記(四):AS-MLP AN AXIAL SHIFTED MLP ARCHITECTUREFOR VISION筆記
- 《Predict Anchor Links across Social Networks via an Embedding Approach》閱讀筆記ROSAPP筆記
- Q-REG論文閱讀
- [論文閱讀筆記] Unsupervised Attributed Network Embedding via Cross Fusion筆記ROS
- [論文閱讀筆記] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings筆記
- Image Super-Resolution Using DeepConvolutional Networks論文閱讀筆記筆記
- 閱讀筆記筆記
- 《張五常論文集》閱讀筆記(一)筆記
- 論文筆記筆記
- 「DNN for YouTube Recommendations」- 論文閱讀DNN