賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

哈工大SCIR發表於2018-06-23

摘要:事件抽取及基於此的事件相關度計算在自然語言處理領域有著非常廣泛的應用前景。然而,當前對事件的研究大多數著眼於句子級別。事實上,在很多應用中,尤其是面向真實的需求,篇章級的事件分析更有影響力。為此,本文在句子級事件抽取的基礎上,提出一種篇章級的事件相關度計算方法,利用句子級事件的抽取結果構建篇章事件連通圖,然後選取圖中重要的節點作為篇章級事件的代表,之後通過計算兩篇文章在篇章事件連通圖上的重合程度確定篇章級事件的相關度。

關鍵詞:篇章事件連通圖;PageRank;篇章級事件相關度

1.  前言

篇章級事件抽取是抽取出最能代表篇章核心內容的事件。篇章級事件不一定是出現頻率最高的事件,但篇章中的所有事件,都一定都是圍繞核心事件展開的,即篇章中的所有事件都一定與核心事件有關聯。篇章級事件抽取可以通過將句子級事件抽取結果疊加來實現。然而,一篇文章 往往描述了多個事件,簡單疊加句子級事件抽取的結果無法獲取篇章的核心事件。這一觀察顯示了研究從篇章級研究事件抽取的重要性。好的篇章級事件抽取模組可以更好地對篇章進行建模,從而更好地服務於事件相關度計算。

在一篇文件中,同一實體可以與多個事件對應(見下圖)。以實體為橋樑,篇章中的事件可以使用篇章事件連通圖進行建模。對事件聯通圖進行挖掘,就可以得到篇章級別的重要資訊。本文研究瞭如何使用PageRank的方法進行挖掘。

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

圖 1通過篇章“川普攜夫人訪問英國。川普與首相共同接受記者採訪。女王在白金漢宮舉辦歡迎晚宴。”構建的篇章事件連通圖。

通過抽取篇章級事件,兩個篇章的相似度可以根據結果中的事件元素、觸發詞的相似性進行建模。事件元素的相似度計算相對容易,觸發詞的相似度計算則面臨相同語義不同表述的問題。比如“打球”中的“打”與“投籃”中的“投”在比賽這個特定領域中語義相似。然而,這種相似性通常難以通過詞表示(Word embedding)或者語義資源(VerbNet)等進行刻畫。為了克服這類問題,我們提出了基於VerbNet的連通圖方法以構建特定領域的詞語分類體系,利用此分類體系確定觸發詞之間的相關性,進而確定篇章級事件的相關性。

2.  演算法流程

篇章級的事件表示以句子級事件為基礎,將句子級事件的觸發詞和事件元素作為節點,首先構造句子級事件多邊形,再根據節點共現以及詞語的詞義相似或相關性將事件多邊形連線起來構造篇章級的事件連通圖。之後,使用隨機遊走演算法確定篇章級事件連通圖中節點的權重,根據權重提取出相對於文章來說最重要的若干節點。由於文章的標題(尤其是新聞標題)能夠標識文章的主題,因此單獨對文章標題提取事件觸發詞及事件元素。將從篇章連通圖中提取出的權重較高的節點和從文章標題中提取中的觸發詞和事件元素取並集,通過計算兩篇文章對應的集合的重合度確定兩篇文章的篇章級事件相關度。演算法流程圖如下:

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

圖2 本文演算法流程

3.  事件抽取

3.1 句子級事件提取

本文以句子級事件的提取為基礎構建篇章級事件表示。具體而言,即是以句子級的事件觸發詞和事件元素作為篇章級事件連通圖的節點。因此句子級事件的觸發詞和事件元素的提取不需非常準確,但是需儘可能涵蓋豐富的資訊,以供連通圖挖掘。考慮到提取速度,我們利用句法樹結構,融合依存句法分析和短語結構句法分析,按照預先設定的提取規則從句法樹中進行事件觸發詞和事件元素的識別。

3.2 句子級事件多邊形的構建

將第一步提取出的事件觸發詞、事件元素(名實體、時間、地點以及有意義的補語狀語等)作為節點,連線成一個具有中心節點的封閉多邊形。比如句子“川普攜夫人訪問英國。”中提取出事件元素“川普”、“夫人”、“英國”,提取出事件觸發詞“訪問”,首先將“訪問”與“川普”、“夫人”、“英國”分別相連,再將“川普”、“夫人”、“英國”按照在句子中出現的先後順序依次連線起來。構成圖形如下:

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

圖3一個句子級事件多邊形的例子

這樣,整個句子級事件就用一個帶有中心節點的封閉三角形表示出來了。如果一個事件具有n個事件元素,則該事件表示為一個具有中心節點n邊形。

3.3 篇章級事件的連通圖的構建

跨事件的節點連結有兩種方式,第一種是如果一個事件元素既出現在一個事件中又出現在另一個事件中,則這兩個事件多邊形共用一個節點。第二種是如果兩個多邊形中有某兩個節點的餘弦相似度的值超過預先設定的閾值,則將這兩個節點連線在一起。圖1顯示了一個事件連通圖的例子。

3.4 隨機遊走(PageRank)計算節點的權重

本文利用PageRank計算圖中節點的權值代表該節點作為篇章級事件表示的可能性,步驟如下:

1)在初始階段:每個節點設定相同的PageRank值,通過若干輪的計算,會得到每個節點所獲得的最終PageRank值。隨著每一輪的計算進行,節點當前的PageRank值會不斷得到更新。當迭代次數達到一個閾值或者權重的變化程度小於一個閾值,停止更新。

2)更新節點的PageRank值:每個節點將其當前的PageRank值平均分配到本節點包含的出鏈上,這樣每個連結即獲得了相應的權值。而每個節點將所有指向本節點的入鏈所傳入的權值求和,即可得到新的PageRank值。當每個節點都獲得了更新後的PageRank值,就完成了一輪PageRank計算。

3.5 篇章標題的處理

對標題的處理與對句子的處理類似,根據依存句法分析及短語結構句法分析相結合的方式提取標題中的觸發詞及事件元素,作為計算篇章相似度的部分依據。

至此,本文對一篇文件的篇章級事件進行了抽取。接下來介紹如何為計算兩篇文件的相似度構造特定領域的動詞分類體系,以及如何計算兩篇文件的相似度。

4.  構造特定領域的動詞分類體系

同一個詞語在不同語境下具有不同的含義。比如“踢”這個詞,在“社會類新聞”中具有這樣一句話,“嫌疑人A踢中受害者B的頭部致其死亡”,此時“踢”具有和“打”相同的含義;但是在一篇“體育類新聞中”,“球員A將球踢進球門贏得一分”,此時“踢”與“射”具有相同的含義。由此可見,相同的動詞在不同領域中具有不同的語義,會與不同的詞語處於同一類別中。為此,我們搭建基於VerbNet和連通圖的特定領域動詞聚類框架以提高事件相關度計算的準確率。

首先生成詞彙聚合賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取,其中賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取,其中賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取為VerbNet中英語的所有動詞集合,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取為目標領域(中文某領域,例如體育、教育等)的所有動詞集合。

構造詞對集合賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取,集包賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取含兩個部分:(1)在VerbNet分類體系中處於同一個類別下的所有詞兩兩組成詞對,如詞對(transport,transfer)均隸屬於詞類send11.1中,將這種約束命名為“吸引約束”。(2)英漢詞典中與英語相對應的中文同義詞對,比如詞對(peace, 和平),將這種約束命名為“同義約束”。

根據集合賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取繪製詞對連通圖。其中滿足吸引約束的詞之間用藍色實線相連,滿足同義約束的詞之間用黑色雙向箭頭相連。如下圖所示:

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

圖4 詞對連通圖示例

當兩個目標領域的動詞通過同義約束連線到同一個英語單詞,或者兩個目標領域的動詞通過同義約束連線到兩個不同的英語單詞,但是這兩個英語單詞又通過吸引約束連線在一起時,將這兩個目標領域的動詞詞向量賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取作為一個詞對賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取提取出來,作為下一步操作的訓練資料,與為該領域下的一對同類動詞。設計針對詞對的損失函式,其中賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取是所提取出的詞對賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取組成的集合,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取代表中所有詞語賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取的集合:

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

損失函式包含兩個部分:賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取中的向量點積賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取約束了動詞賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取應該與非同類的動詞的語義相似度,要儘可能小。其中賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取是詞對集合賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取中的,所有與賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取沒有共現在一個詞對中的,餘弦相似度與賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取最相近的詞語,即賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取是集合賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取中與賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取非同類的,但是詞義最相近的詞語。向量點積代表一個向量在另一個向量方向上投影的大小,點積越小,說明一個動詞與另一個動詞在其語義上的相似度越小,損失函式就越小。同理,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取代表處於同一類的動詞的語義相似度儘可能得大。兩個同類向量在語義相似度上越大,向量點積賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取就越大,相應的損失函式就越小。調整詞向量不僅僅要使詞向量在語義上儘可能相近,同時還要保證更新後的詞向量保留了詞語的原本詞義。賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取是第i個詞語的最初的詞向量表示。賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取刻畫了更新後的詞向量與原本詞向量在詞義上的差距。與原本詞向量的詞義差距越大,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取就越大,損失函式也就相應越大。賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取。是先驗引數。根據計算出的詞對的損失計算梯度更新每個目標領域的動詞的向量表示,直到向量表示收斂。之後,構建詞語篇章矩陣,如下表所示:

表1 詞篇章矩陣

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取代表語料庫中的第n篇文章,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取代表語料庫中所有詞語組成的集合中的第n個詞語。

其中賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取的計算方式為賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取為詞語i在篇章j中出現的次數,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取為詞語i在整個語料庫中出現的總次數,N是語料庫中文章的總次數。向量賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取代表賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取在整個語料庫中的向量表示。

構造連通圖,連通圖的每一個節點代表一個詞語,節點之間的邊的權重賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取的計算方式為:首先令賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取,對矩陣賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取進行奇異值分解,之後計算賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取,其中賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取是奇異值分解後得到的奇異向量,賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取對應的奇異值。

採用PageRank演算法計算每一個節點的權重,當權重收斂後,將節點權重與第一步通過VerbNet訓練得到的節點對應詞語的詞向量相乘得到新的節點向量表示。

5.  根據篇章連通圖及標題計算篇章級事件的相關度

根據權重大小對連通圖中的節點進行三類排序:把文章中所有的名實體按照權重大小進行排序、把文章中的觸發詞按照權重大小進行排序、把文章中的所有節點按照權重大小進行排序。將每個排行榜上的前五個詞提取出來作為篇章級事件的代表。分別計算兩篇文章的前五個篇章名實體的餘弦相似度的均值、前五個篇章觸發詞的餘弦相似度的均值(觸發詞的詞向量為第6步得到的結果)、前五個詞語的餘弦相似度的均值、標題觸發詞的餘弦相似度(觸發詞的詞向量為第6步得到的結果)、標題名實體的餘弦相似度均值、標題詞語的餘弦相似度的均值,並將這六項求和。得到的值作為兩篇文章的篇章級事件的相關度。

6.  實驗效果、評價方法及未來工作

為驗證演算法的效能,我們初步在具備27個標籤的包含200篇體育新聞的測試集上進行了實驗。我們隨機從每個標籤對應的新聞集合中選擇新聞,組成了20000對新聞對作為測試集,然後手工標註,選擇了其中6000對相關新聞和10000對不相關的新聞作為測試集。

針對篇章級事件提取任務,我們設計了三種對比方法,分別是:

  • 對比方法一:計算兩篇文件詞語的tf/idf值,然後按權重排序,取前10個片語成集合,計算兩篇文件的集合的重合程度,設閾值5,超過5個為相關,少於5個為不相關。

  • 對比方法二:在前述方法基礎上計算兩兩詞對的詞向量餘弦相似度,然後將所有相似度求和後取平均值,大於閾值為相關。

  • 對比方法三:按原有的方法以事件為節點,選取PageRank值最高的5個事件節點,判斷兩篇文件相似度。

通過引數調節,在相同的召回率下(10%、20%、30%、40%),四種方案的準確率如下:

表2 四種方案准確率

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

通過分析可以發現,通過調整引數,召回率相同的條件下,本文所提的方法均優於三種對比方法。其中,對比方法一通過tf/idf值發現了對文章貢獻最大的若干詞語,但是這種方式忽略了事件之間的關聯性,提取出的詞可能全部是事件元素或者全部是事件觸發詞,即使是相似的新聞,在用詞上也會有差別,因此準確率較低。對比方法二在方法一的基礎上引入了餘弦相似度,因此能夠在一定程度上發現由於相似用詞而引起的事件相關性,但是該方法窮舉了所有可能的詞對,也引入了大量的噪聲,因此準確率反而低於對比方法一。對比方法三找出權值最高的事件,但是這種表示事件的方式過於粗粒度,兩篇同樣圍繞同一事件的文章,其中一篇提取出的權值最高的事件可能是“某某進球得分”,另一篇提取出的可能是“某某犯規”,這種方式最後還是通過句子級事件去衡量篇章級事件的相關性,其準確率遠低於本文提出的方法,這也從側面上說明,本文提出的篇章級事件挖掘方法是有效的。

本文提出的演算法雖然構造了篇章連通圖,但是連通圖的作用也僅限於提取權重較高的節點,而圖的結構資訊並沒有被充分利用到。下一步的工作目標即是將圖的結構資訊引入到篇章級事件的相關度計算中,提高計算的準確率。

同時,在發現相關篇章的基礎上,對文章進行邏輯推理也是非常有意義的工作。下一步,我們期望能夠完成篇章與篇章之間的邏輯關係發現任務。

7.參考文獻

[1]    Yubo Chen, Liheng Xu, Kang Liu, Daojian Zeng and Jun Zhao. 2015. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks. In Proc. of ACL.

[2]    Dian Yu, Heng Ji. Unsupervised Person Slot Filling based on Graph Mining.2016. In Proc. Of ACL.

[3]    Quan Wang, Jing Liu, Yuanfei Luo, Bin Wang, Chin-Yew Lin. 2016. Knowledge Base Completion via Coupled Path Rank. In Proc. Of ACL.

[4]    Kristina Toutanova, Xi Victoria Lin, Wen-tau Yih. 2016. Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text. In Proc. of ACL.

[5]    Shulin Liu, Yubo Chen, Shizhu He, Kang Liu, Jun Zhao. 2016. Leveraging FrameNet to Improve Automatic Event Detection. In Proc. Of ACL.

[6]    Han Xiao, Minlie Huang, Xiaoyan Zhu. 2016. TransG: A Generative Model for Knowledge Graph Embedding. In Proc. of ACL.

[7]    Yubo Chen, Shulin Liu, Xiang Zhang, Kang Liu, Jun Zhao. 2017. Automatically Labeled Data Generation for Large Scale Event Extraction. In Proc. of ACL.

[8]    Wenyuan Zeng, Yankai Lin, Zhiyuan Liu, Maosong Sun. 2017. Incorporating Relation Paths in Neural Relation Extraction. In Proc. of EMNLP.

[9]    Bingfeng Luo, Yansong Feng, Zheng Wang, Zhanxing Zhu, Songfang Huang, Rui Yan, Dongyan Zhao. 2017. Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix. In Proc. of ACL.

[10]    Chen Chen, Vincent NG. 2012. Joint Modeling for Chinese Event Extraction with Rich Linguistic Features. In Proc. of COLING.

本文來源於哈工大SCIR

賽爾原創 | 基於連通圖的篇章級事件抽取與相關度計算

賽爾原創 | 基於連通圖的相關度計算與篇章級事件抽取

相關文章