事理圖譜:事件演化的規律和模式

哈工大SCIR發表於2017-05-15

引言

事件是人類社會的核心概念之一,人們的社會活動往往是事件驅動的。事件之間在時間上相繼發生的演化規律和模式是一種十分有價值的知識。然而,當前無論是知識圖譜還是語義網路等知識庫的研究物件都不是事件。為了揭示事件的演化規律和發展邏輯,本文提出了事理圖譜的概念,作為對人類行為活動的直接刻畫。在圖結構上,與馬爾科夫邏輯網路(無向圖)、貝葉斯網路(有向無環圖)不同,事理圖譜是一個有向有環圖。現實世界中事件演化規律的複雜性決定了我們必須採用這種複雜的圖結構。為了展示和驗證事理圖譜的研究價值和應用價值,我們從網際網路非結構化資料中抽取、構建了一個出行領域事理圖譜。初步結果表明,事理圖譜可以為揭示和發現事件演化規律與人們的行為模式提供強有力的支援。

事理圖譜的定義

首先,給出事件、事件間順承和因果關係的定義。事理圖譜中的事件用抽象、泛化、語義完備的謂詞短語來表示,其中含有事件觸發詞,以及其他必需的成分來保持該事件的語義完備性。抽象和泛化指不關注事件的具體發生時間、地點和具體施事者,語義完備指人類能夠理解該短語傳達出的意義,不至於過度抽象而讓人產生困惑。例如,“吃火鍋”,“看電影”,“去機場”,是合理的事件表達;而“去地方”,“做事情”,“吃“,是不合理或不完整的事件表達。後面三個事件因為過度抽象而讓人不知其具體含義是什麼。事件間順承關係指兩個事件在時間上先後發生的偏序關係;在英語體系研究中一般就叫做時序關係(Temporal Relation),本文認為兩者是等價的。例如,“小明吃過午飯後,付完賬離開了餐館。”吃飯、付賬、離開餐館,這三個事件構成了一個順承關係鏈條。事件間因果關係指在滿足順承關係時序約束的基礎上,兩個事件間有很強的因果性,強調前因後果。例如,“日本核洩漏引起了嚴重的海洋汙染”。“日本核洩漏”和“海洋汙染”兩個事件間就是因果關係,“日本核洩漏”是因,“海洋汙染”是果,並且滿足因在前,果在後的時序約束關係。事件順承關係是比因果關係更廣泛的存在。

事理圖譜:事件演化的規律和模式

圖1:“結婚”場景下的樹狀事件演化圖


事理圖譜:事件演化的規律和模式

圖2:“看電影”場景下的鏈狀事件演化圖


事理圖譜:事件演化的規律和模式

圖3:“打架”場景下的環狀事件演化圖

事理圖譜(Event Evolutionary Graph)是一個描述事件之間順承、因果關係的事理演化邏輯有向圖。圖中節點表示抽象、泛化的事件,有向邊表示事件之間順承、因果關係。邊上還標註有事件間轉移機率資訊。圖1,圖2,圖3分別展示了事理圖譜中3個不同場景下,不同圖結構的區域性事件演化模式圖。這種常識性事件演化規律往往隱藏在人們的日常行為模式中,或者使用者生成的文字資料中,而沒有顯式地以知識庫的形式儲存起來。事理圖譜旨在揭示事件間的邏輯演化規律與模式,作為對人類行為活動的直接刻畫。

事理圖譜:事件演化的規律和模式

事理圖譜與傳統知識圖譜有本質上的不同。如表1所示,事理圖譜以事件為核心研究物件,有向邊只表示兩種事理關係,即順承和因果;邊上標註有機率資訊說明事理圖譜是一種事件間相繼發生可能性的刻畫,不是確定性關係。而知識圖譜以實體為核心研究物件,實體屬性以及實體間關係種類往往成千上萬。知識圖譜以客觀真實性為目標,某一條屬性或關係要麼成立,要麼不成立。

事理圖譜:事件演化的規律和模式

圖4:出行領域事理圖譜Demo

基於上文相關定義,我們從網際網路無結構化資料構建了一箇中文出行領域事理圖譜。採用的語料是知乎“旅行”話題下的32萬篇使用者問答對。構建過程包括事件抽取、事件間順承和因果關係識別、事件轉移機率計算等步驟。圖4是該事理圖譜的Demo展示。以“跑步”作為輸入事件,我們採用廣度優先搜尋向外擴充套件,形成了圖4中以“跑步“為核心事件所擴充套件出來的區域性事理關係圖。從該圖中,我們至少可以發現3個有趣的事件演化鏈條。“跑步、看醫生、拍片子”的分支屬於“運動受傷”場景下的事件演化模式,“跑步、洗澡、睡覺”分支屬於“運動休閒”場景下的事件演化模式,“跑步、(買)跑鞋、去網站”分支屬於“運動消費”場景下的事件演化模式。這個例子揭示了事理圖譜對事件演化規律刻畫的準確性與多樣性。圖中邊上還標有事件轉移機率等資訊。


事理圖譜的理論基礎與應用

理論上,事理圖譜是一種機率有向圖。它與機率圖模型中的貝葉斯網路、馬爾科夫邏輯網路既有不同又有聯絡。貝葉斯網路採用有向無環圖來表達變數節點之間的條件依賴與獨立性關係,馬爾可夫隨機場則採用無向圖來表達變數間的相互作用關係。從這個層面上講,事理圖譜用有向有環圖表達常量(事件)之間的演化關係。貝葉斯網路和馬爾科夫邏輯網路的本質是研究多個隨機變數的聯合機率分佈。而事理圖譜是研究事件的鏈式依賴和表徵事件發展方向的可能性。因此與貝葉斯網路和馬爾科夫邏輯網路相比,事理圖譜既有其結構特殊性,研究物件也有所不同。我們可以借鑑貝葉斯網路和馬爾科夫邏輯網路中的研究成果,但研究物件的不同又對我們的理論和工具提出了新的要求。具體來說有環特性增加了事理圖譜圖結構的複雜性,因此傳統機率圖模型上的信念傳播演算法就面臨了挑戰。事理圖譜這種複雜網路中的事件鏈條和鏈式依賴的挖掘與確定性評價也是一個全新的課題。

本質上,事理圖譜提供了這樣一種功能:給出一個抽象事件(“看電影”),它能告訴你圍繞該抽象事件在時間演化順序上先後可能發生什麼樣的事情(“訂票”,“選座位”,“叫車”,“取票”,“買飲料”,“排隊入場”等)。據此,事理圖譜將至少可以在以下兩方面起到重要作用。


  1. 智慧對話系統。如果在對話中出現了A事件,可以在回覆中提及A的前提事件或後繼事件,構造語義上更加智慧與合理的回覆。
  2. 消費意圖識別與推薦系統。在事理圖譜中,某些事件會成為消費意圖顯著事件(“去旅行”,“逛街”,“爬泰山”等),能夠觸發一系列後續消費事件。我們把這類事件節點找出來,有助於隱式消費意圖的識別,進而做出合理的商品推薦。


事理圖譜的應用不僅限於此。在人工智慧應用中,常識推理是一種十分重要且必需的能力。作為一種常識性事件演化邏輯知識庫,事理圖譜的應用潛力十分巨大。

相關工作

在調研過程中,我們發現跟事理圖譜密切相關的兩個研究方向是統計指令碼學習和事件間時序因果關係識別。前者關注事件鏈條的抽取,事件預測以及事件間轉移機率的建模。給定文字中兩個事件,後者關注如何識別它們之間的時序、因果關係以及關係方向。借鑑這兩個領域的研究成果,有助於事理圖譜構建。

      

事理圖譜:事件演化的規律和模式

圖5:飯店用餐指令碼 

指令碼學習研究可以追溯到上世紀70年代。如圖5所示,Schank & Abelson[1]提出用指令碼(Script)來建模特定場景的事件常識知識。那時的指令碼通常是學者手工編碼、人工構造的。Chambers& Jurafsky[2]採用簡化的事件表示形式(Verb+dependency),從新聞資料中自動抽取統計指令碼,並提出用“挖詞填空“方法來評估指令碼事件預測模型。該工作成為近年來指令碼學習研究的開創性工作。此後,陸續有多篇研究工作跟隨Chambers & Jurafsky的研究框架,從事件表示、指令碼事件預測模型等方面提出了很多改進方案。Pichotta & Mooney[3]首次提出用迴圈神經網路的方法直接對句子級事件進行操作,生成下一個句子級事件。2016年在ACL、EMNLP、AAAI、Coling、LREC等會議上有多篇指令碼學習的研究工作出現,並且釋出了多個公開資料集,表明這項研究逐漸成為NLP領域一個新的研究熱點。

事理圖譜跟指令碼學習研究雖然概念上有相似之處,但兩種研究的出發點是不同的。指令碼學習研究往往不關注事件的具體表示形式,經常以一個十分抽象的動詞或者依存關係表示一個事件,人類一般無法理解這些事件具體含義是什麼。指令碼學習重點關注事件預測,給出一些已經發生的事件,預測接下來會發生什麼事件。指令碼學習研究目標不是構造事理知識庫,並不顯式地將抽取出的事件組織成有向圖結構,而以鏈狀的事件鏈條為事件組織形式,而且一般以事件在文中出現的順序作為事件先後發生的順序。事理圖譜的研究目標是將事件演化規律和模式組織成一個大型事理常識知識庫,這個知識庫是人類行為活動的真實刻畫。

事件間時序關係識別是一個評測驅動的研究領域。該研究的標準資料集是基於TimeML標準標註的TimeBank語料。SemEval2007,SemEval2010,SemEval2013相繼開展了該任務的評測。參加者需給出文字中指定事件對之間的時序關係屬於哪一種。歷屆評測以英文語料為主,後來又加入了西班牙語、義大利語、法語的評測。SemEval2010釋出了一個小規模中文資料集。

在NLP領域,已有大量工作對事件間因果關係抽取與識別進行了深入研究。這裡僅列舉部分有代表性的工作。Zhao等人[5]透過提取多種型別的特徵,對單個句子中的兩個事件進行因果關係識別,發現因果關聯詞類別特徵可以有效降低過擬合。Radinsky等人[6]透過因果模板匹配的方法從新聞標題中自動抽取因果對,並將這種因果知識用於新聞事件預測。Zhao[7]採用了與[6]中類似的方法來進行因果對的抽取,並利用WordNet和VerbNet對事件進行泛化,構建了一個抽象因果網路。在此抽象因果網路上,他們進一步將事件進行Embedding表示,以便用於事件預測、股票預測等任務。Mirza等人[8]透過採用多分類器級聯的方法,在小規模標註語料上同時進行事件時序關係識別與因果關係識別,取得了不錯的實驗結果。

前人在事件間時序和因果關係識別上的研究已有大量技術積累,在構建事理圖譜過程中,這些技術可以為我們所借鑑。

結束語

人們每天的活動在不知不覺間進行。實際上,每個人的頭腦裡都有一個隱形的事理圖譜,人們據此展開每天的行為活動。本文提出了事理圖譜的概念並給出了詳細定義。事理圖譜是事件演化規律和模式的知識庫,是人類行為活動的真實刻畫。我們嘗試從大規模無結構化資料中構建事理圖譜,並且搭建了一個Demo,讓人們可以看到事理圖譜的雛形。事理圖譜的構建涉及多項自然語言處理核心技術,未來我們將精心打磨各個技術點,旨在構建準確、全面的常識事理知識庫。這是一個非常有潛力的研究方向,也一定會吸引更多的學者投入到這個研究領域中來。

作者: 哈工大SCIR 李忠陽,趙森棟,丁效

參考文獻

[1] SchankR C, Abelson R P. Scripts, plans, and knowledge[M]. New Haven, CT: YaleUniversity, 1975.

[2] ChambersN, Jurafsky D. Unsupervised Learning of Narrative Event Chains[C]//ACL, 2008,94305: 789-797.

[3] PichottaK, Mooney R J. Using sentence-level LSTM language models for scriptinference[J]. ACL, 2016.

[4] LiP, Zhu Q, Zhou G, et al. Global Inference to Chinese Temporal RelationExtraction[J]//Coling, 2016.

[5] ZhaoS, Liu T, Zhao S, et al. Event causality extraction based on connectivesanalysis[J]. Neurocomputing, 2016, 173: 1943-1950.

[6] RadinskyK, Davidovich S, Markovitch S. Learning causality for news eventsprediction[C]//Proceedings of the 21st international conference on World WideWeb. ACM, 2012: 909-918.

[7] ZhaoS, Wang Q, Massung S, et al. Constructing and embedding abstract eventcausality networks from text snippets[C]//WSDM. ACM, 2017: 335-344.

[8] MirzaP, Tonelli S. CATENA: CAusal and TEmporal relation extraction from NAturallanguage texts[C]//Coling. 2016: 64-75.

本文來源於哈工大SCIR

原文連結點選即可跳轉

事理圖譜:事件演化的規律和模式

相關文章