篇章語義分析:讓機器讀懂文章

哈工大SCIR發表於2016-08-02

自然語言處理的研究從詞彙、詞典的研究起步,近年來一直把句子作為核心的研究物件,對篇章的語義分析多是語言學家從理論上進行探索,電腦科學家對篇章範圍語義現象的關注有限。但是,很多語義問題必須在篇章層面上才能夠得到根本性的解決,比如“共指消解”、“語義關係識別”和“事件融合與關係識別”等。同時,這些篇章級語義問題的解決對於詞彙級和句子級的分析同樣具有反哺性的指導意義。近年來,中文詞彙、句子級自然語言處理技術的發展,特別是詞義消歧、句法分析和語義角色標註等研究工作的進展為篇章語義分析的研究創造了技術條件。同時,搜尋引擎等重大網際網路應用也向篇章語義分析提出了應用上的強烈需求。如果能夠建立一套既具有理論深度,又具有現實可行性的篇章語義分析的理論和方法體系,對於自然語言處理學術和應用的發展無疑都將具有重要意義。本文即概述了目前主流的篇章語義分析方法,並簡要介紹了其應用前景。

1、什麼是篇章語義分析

篇章(Discourse),是指由詞和句子以複雜的關係連結而成,能夠完成一定交際任務的完整連貫的語言單元。篇章語義分析(Discourse Analysis)是指在篇章層面上,將語言從表層的沒有結構的文字序列轉換為深層的有結構的機內表示,刻畫篇章中的各部分內容的語義資訊,並識別不同部分之間存在的語義關聯,進而融合篇章內部資訊和外部背景知識,更好的理解原文語義。篇章語義分析的研究建立在詞彙級、句子級語義分析之上,融合篇章上下文的全域性資訊,分析跨句的詞彙之間,句子與句子之間,段落與段落之間的語義關聯,從而超越詞彙和句子分析,達到對篇章等級更深層次的理解。

2、篇章語義分析方法概述

篇章語義分析主要有以下三個主流的研究方向:

2.1 以篇章結構為核心

此類研究工作的目標是識別不同文字塊之間的語義關係,例如條件關係、對比關係等,亦稱之為修辭關係識別。根據是否需要將文字分割為一系列彼此不相交的覆蓋序列,可以將本類方法進一步分成兩大類:第一類以修辭結構理論(Rhetorical Structure Theory)和篇章圖樹庫(Discourse GraphBank)為代表,要求先將文字切分為彼此不相交的語義單元,並隨後分析各部分之間的語義關係及結構組成;第二類方法以賓州篇章樹庫理論(Penn Discourse TreeBank)為代表,不需要預先切分文字,而是直接識別篇章關係及其元素所在位置,並隨後識別具體的語義關係型別。

修辭結構理論(Rhetorical Structure Theory, RST)最早由Mann和Thompson在1988年發表的論文[1]中提出。除Mann和Thompson在該方向持續發表相關工作之外,Marcu在其論文中對RST理論進行了分析,並持續探索該方向,提出兩種基於RST理論分析的文字處理方法[2]:(1)識別提示短語(Cue Phrases, CP),然後將整句打散成若干個子句;(2)為無結構的文字建立一個有效的修辭結構樹。RST理論以文字結構為分析物件,從小單元之間的連線關係開始,逐步延伸到自然語言段落和完整的語篇。RST在漢語中的跨語言可轉移性有特殊的背景。可惜,雖然有不少對RST的中文介紹和初步應用計劃等,但實質性的發展應用很少。目前山西大學李茹教授的團隊正在嘗試進行中文RST樹庫的構建工作,所產出的資源已經具有一定規模,非常值得期待,只是尚未有公開的成果發表。因此,RST理論現在在中文尚沒有一套完整可用的系統或理論,應用難度較高。

篇章圖樹庫(Discourse GraphBank)最初由Wolf和Gibson提出[3]:該理論認為,相比於樹結構,篇章更適合於表示為圖。在最初的文章中,Wolf和Gibson詳細討論了圖表示與樹表示的差別,並構建了一個由135篇文件構成的篇章樹庫資源。Wolf和Gibson提出,圖表示允許將文章中的不同內容以更自由的形式表示出來,從而可以儘可能的獲取豐富資訊。關於Discourse GraphBank與RST Discourse TreeBank的區別可詳見Wolf and Gibson [3]。

賓州篇章樹庫理論(Penn Discourse Treebank)是賓州大學的研究人員採用的一種以詞彙為中心的方法[4],在句子級的Penn TreeBank樹庫的基礎上,以篇章關聯詞語為核心,從語義角度出發構建了篇章關係樹庫[5]。該研究檢測同一篇章內兩個文字單元(片段、分句、複句、句群、段落等)之間的邏輯語義關聯(因果關係、轉折關係等),將句內的語義分析結果擴充套件為篇章級別的語義資訊,從而成為語義分析的重要解決途徑之一。

根據文字單元間是否存在篇章連線詞,可將篇章句間的關係分為包含關聯詞的顯式篇章句間關係(Explicit Discourse Relation,簡稱顯式關係)[6,7]與不含關聯詞的隱式篇章句間關係(Implicit DiscourseRelation,簡稱隱式關係)[8,9,10,11]。由於隱式篇章關係缺少關聯詞,無法直接推測語義關係型別,需要根據上下文進行推測,因此也更加難以識別。

目前採用PDTB標準構建的篇章語料主要面向英語[5],除此以外印度語[12]、土耳其語[13]和阿拉伯語[14]上也有相應的研究和資源出現。在中文上,布蘭迪斯大學的Xue教授最早嘗試了中文關聯詞標註於分析工作[15],並嘗試按照PDTB體系標註中文樹庫。除此以外,Huang和Chen也在相關工作上做了一定嘗試[16]。值得一提的是,哈爾濱工業大學社會計算與資訊檢索研究中心秦兵教授課題組,採用PDTB框架,歷時數月,標註超過20,000個例項,構建了一份大規模的中文篇章語料庫[17],並於2014年對學術界免費共享。

整體來說,以篇章結構為核心的篇章語義分析研究中,文字的語義資訊首先被轉換為文字塊間的修辭結構,隨後具體化為相應的語義關係型別(例如因果關係、轉折關係等)。對於以修辭結構理論(RST)為代表的一類研究而言,文字塊間的修辭結構應該滿足一種樹形結構;而對於以賓州樹庫理論(PDTB)和篇章圖理論(Discourse GraphBank)而言,文字塊間的修辭結構則傾向於線形結構,同時允許一定的交叉和跨越關係存在。這些研究兼有表現力和實用性,通過定義修辭結構和語義關係,這些方法可以獲取一定程度的語義資訊,並且採用超越了詞彙級別的基本處理單元,表現力較強。缺點主要在於結構分析難度較大,無論RST還是PDTB都對篇章結構做了部分假設從而降低難度,提升操作性,但也損失了語義結構的完整性。更重要的是,在語義型別識別方面,由於語義問題本身的複雜性和歧義性,導致識別難度較大;而已有的相關研究主要關注篇章內部特徵的挖掘和使用,對外部語義知識的使用不足,這也在一定程度上限制了最終的識別效果。

2.2 以詞彙語義為核心

最典型的代表為詞彙鏈理論(Lexical Chain Theory),其由Morris和Hirst於1991提出的。“詞彙鏈”是指一個主題下的一系列相關的詞共同組成的詞序列[18]。該演算法的基本假設非常直觀:用於描述特定主體的多個詞語,在語義層面上應該是相關的,並且圍繞特定主體展開構成一條相關詞彙的鏈條。這樣聚集起來的相關詞彙的鏈條即稱之為“詞彙鏈”,作為特定語言片段內部各個主題的指示。如果能夠分析獲知多個詞彙鏈在文中的分佈,那麼對應的文章結構也就確定了,屬於一種靜態的語篇連貫研究方法。

與鏈狀的詞彙鏈不同,中心理論(Centering Theory)主要針對篇章結構中的焦點、指代表示式選擇、話語一致性等進行研究。最初由Grosz等[19]在1995年提出,通過跟蹤句子的“中心”變化來描述篇章。“中心”指的是將當前句子與其他句子關聯在一起的實體,如果一句話有了這種“中心”實體,那麼它將不再是獨立的句子,而是與上下文相關的語句。如此,Grosz等人將“句子(Sentence)”與“語句(Utterance)”區分開來,用“句子(Sentence)”指代一個普通的詞的序列,用“語句(Utterance)”代指這種具有中心的、與上下文相關的句子。所以他們認為,這些“中心”才是組成語篇結構的基礎成分。

篇章連貫性理論(Discourse coherence evaluation)是篇章語義分析研究的另一典型代表。該研究最初始於Grosz等人1995年提出的“中心定理”,通過對“中心”的刻畫直接反映了篇章連貫資訊[19]。近年來,篇章連貫性分析研究獲得了比較快的發展,出現了一些操作性較強的方法和研究。2005年,Barzilay和Lapata提出了經典的基於實體的連貫性評估方法,該方法分析各個實體在多個句子中是否出現及相應句法角色,將待評估的文章轉化為Entity-grid,並利用該Entity-grid抽取特徵訓練有指導模型來進行連貫性評估[20]。2008年,Elsner和Charniak在經典的Entity-grid模型的基礎上,對篇章實體進行了進一步細分,引入新實體的概念和實體間的共指資訊,顯著提升了系統效能[21]。隨後,他們二人進一步豐富了Entity-grid方法,向表格中的項中新增了關於實體顯著性的資訊以更加提升系統效能[22]。

在上文介紹的以詞彙語義為核心的篇章語義分析研究中,文字的語義資訊通過詞彙間的語義關聯體現。具體來說,語義相關的詞彙、實體在文件中的分佈情況,也可以體現篇章的行文結構以及各部分之間的語義關聯,此類研究中的不同理論與方法從不同的角度對篇章資訊進行了刻畫。具體來說,語義詞彙鏈理論(Lexical Cohesion)通過分析普通詞彙(包括名詞、形容詞等)的語義資訊構建主題詞彙鏈,利用詞彙之間的分佈和轉移方式分析篇章語義。中心理論(Centering Theory)和連貫性分析則主要以實體為分析物件,利用實體(包括共指實體、相關實體等)的分佈和重現刻畫篇章資訊。這一類的研究理論完善,操作性也比較強;但以詞彙為分析物件,表現力比較有限,而且語義關係以關聯為主,對具體的語義型別(例如因果關係、轉折關係)沒有進行更細緻的區分。另外,此類方法通過詞彙的銜接來反映篇章結構,不利於刻畫複雜的篇章結構資訊。

2.3 以背景知識為核心

此類研究工作需要藉助語義詞典作為背景知識幫助分析篇章語義關係。經過國內外專家的努力,目前已經產生一些初具規模,並具有一定實用程度的語義詞典資源。在國外,有以描寫詞彙上下位、同義、反義等聚合關係為主的WordNet[23],以描寫語言成分之間的各種組配關係為主的FrameNet [24]。而國內比較知名的有知網(HowNet)[25]、清華大學開發的以語義組合關係為主的《現代漢語動詞分類詞典》[26]、北京大學基於WordNet框架開發的中文概念詞典(Chinese Concept Dictionary,CCD)[27]、臺灣中研院整合多資源的SinicaBow(the Academia Sinica Bilingual OntologyWordNet)[28]、哈爾濱工業大學在同義詞詞林(Cilin)基礎上開發的同義詞詞林(擴充套件版)等。

隨著Web 2.0的發展,使用者產生內容使得網際網路上的資訊量爆增。以Wikipedia(中文名:維基百科)為代表的,使用群體智慧構建的線上百科就是其中的典型代表。Wikipedia是一種線上協作式編輯的多語言百科知識庫,它以概念(concept)為單位維護一個獨立的頁面,其中包含對該概念的全面豐富的內容介紹(content)。Wikipedia具有開放式的分類,不侷限於特定的層次分類。每個概念根據不同角度可以歸入不同的類別,即每個概念可以屬於一個或多個分類(category)。Strube和Ponzetto最早提出基於Wikipedia的語義相關度計算方案:WikiRelate。他們使用Wikipedia的分類節點為代表詞,計算節點之間的最短路徑衡量詞的相關程度,達到了與WordNet相當的效果[29]。Gabrilovich和Markovitch提出了顯式語義分析(Explicit Semantic Analysis,ESA)模型,他們首先將文字表示成高維Wikipedia概念向量,通過計算向量餘弦相似度等得到文字之間的相關程度[30]。這種將文字表示成概念集合的方式易於理解,且語義表示能力較強。Witten和Milne在前人工作基礎上,提出了WLM(the Wikipedia Link-based Measure)度量方法,主要使用Wikipedia概念中包含的大量超連結,而非分類和概念文章內容,反映文字的語義資訊[31]。類似的方法還有[32,33]。

由於Wikipedia蘊含著豐富的語義知識,已有工作大都採用詞匹配或檢索方法將文字對映到Wikipedia的概念網路,並以此作為對文字的補充。然而,由於Wikipedia頁面中的資訊過多,引入整個頁面較易導致噪音問題。此外,中文維基百科的質量遠不及英文,也會限制中文相關的研究工作。哈爾濱工業大學的張牧宇博士根據認知心理學中的聯想主義理論將背景知識(例如Wikipedia)表示為統一的三元組結構後將其引入到篇章語義分析中,並將分析結果用於檢測篇章語義的連貫性以衡量聯想背景知識的效果[34]。

框架語義學(Frame Semantic)是由Fillmore等人在格語法基礎上進一步提出的研究詞語意義和句法結構意義的語義學理論。該理論認為詞彙的語義必須跟具體的認知結構相聯絡,同一個詞語在不同的結構中可能具有不同的語義,而這裡所說的認知結構即為“框架”[35]。框架語義學認為,詞語的意義通常於人腦中預先存在的概念結構相互聯絡,而這些概念結構又與個體所處的具體情境有關,涉及到實體屬性、社會制度、行為模式等語義框架的約束。因此,人們可以根據自己的經驗刻畫不同的背景框架,並進而對同一個框架下的各個詞語定義具體的框架元素。該專案最早起源於美國加州大學伯克利分校於1997年開始的一個以框架語義學為理論基礎,以真實語料為事實依據的計算機詞典編撰工程,且至今仍在進行。目前為止,FrameNet V1.5已構建了960個語義框架,覆蓋11,600個詞彙,其中超過6,800個詞彙被完全標註,已標註150,000多個例句,並仍然在不斷擴充。

從整體上來說,以背景知識為核心的篇章語義分析研究中,文字語義資訊通過人工構建的背景知識資源體現,分析過程也圍繞相應資源來展開。根據知識源的特點,分析過程和側重點也各不相同。具體而言,語義詞典(Dictionary)和線上百科(Online Encyclopedia)相對寬泛,適用於多種語義資訊需求以及豐富的應用場景;框架語義學(FrameNet)以動詞為核心,通過構建“語義框架”將語義知識轉化為計算機詞典,用詞義間的關聯反映語義,此方法資訊豐富,對語義的刻畫相對完整,便於計算機使用,所提供的語義資訊可以用於各種應用,價值很高。缺點在於嚴重依賴於背景知識資源的覆蓋率,對資源質量要求很高;而此類資源又大都專業性較強,構建過程耗時耗力,很難形成規模,難以窮盡現實場景,從而限制了實用性。而基於線上百科的資源,又存在噪音較大,資訊不夠精確等問題。

3、篇章語義分析的應用

由於篇章語義分析以篇章結構和語義資訊為分析目標,因此對機器翻譯(Machine Translation, MT)研究的促進作用最為直接。在已有的工作中,研究人員利用篇章語義分析技術從很多角度輔助機器翻譯系統的效能提升。首先,篇章語義分析研究結果能夠刻畫MT系統的輸入文字塊之間的語義關係,這對MT系統更合理地組織翻譯結果無疑是有益的[36]。此外,篇章語義分析對關聯詞、文件結構都進行了比較深入的分析,這些資訊有助於提升翻譯文字的連貫性,生成可讀性更好的翻譯結果[37,38]。另外,篇章級別的機器翻譯評價始終是一個難題,通過引入篇章語義分析研究結果,可以在篇章層面上利用核函式捕捉結構資訊,有助於更好地進行翻譯質量評估[39,40]。

自動問答系統(Question Answering, QA)是另一個從篇章語義分析研究中受益的重量級應用。通常情況下問答系統包括問句理解和答案抽取兩個模組:在問句理解部分,篇章語義分析有助於理解題幹各部分之間的語義關係,從而加深對問題的理解[41]。在答案抽取方面,篇章語義分析可以用來更精確地分析答案所在文字[42],進行候選答案的重排序,有助於更準確的回答問題[43]。除了傳統QA研究之外,近年來閱讀理解研究也受到了越來越多的關注。閱讀理解的任務是對於給定的一篇自然語言文章和給定與文章相關的問題,計算機根據詞語特徵等語義資訊來自動選擇與問句相關的候選答案句。在閱讀理解任務中,文章主題的廣泛性要求對語料庫進行深度加工和處理,才能得到比較好的結果。閱讀理解研究可以直接應用到許多的社會領域,它不但是自然語言處理的一個重要的研究方向,而且可以對自然語言處理技術的成熟有很大促進作用。事實上,組成篇章結構的語句、片段之間有著明顯的語義關係,這些關係可以加深對問題的理解[41]。在文獻[44,45]中,已經證明了句法關係對閱讀理解答案抽取有促進作用,但是其效能的提升並不明顯。目前,已有的基於概率和機器學習的答案抽取方法中,都是將篇章中的各個句子看作是相互沒有語義關聯的獨立資訊描述單位。但在實際上,篇章中的不同句子之間存在者緊密的邏輯語義關係,全部句子結合之後來才能完成對篇章主題的全面描述。因此,通過在篇章中逐一判別每個句子和使用者問題之間邏輯匹配度的方法來選擇答案句,就無法正確回答使用者的所有問題。基於此,即有了結合篇章語義分析的閱讀理解方法,與傳統QA類似,該研究也得益於篇章語義分析[41,46,47]而獲得了效能的顯著提升[48]。

4、挑戰與機遇

目前主流的篇章語義分析方法以有指導的分析方法為基礎,其依賴於帶標註資訊的語料資源,而此類資源嚴重匱乏。其次,由於語料資源的匱乏以及篇章關係分析任務本身的複雜性,目前為止,中英文篇章關係的識別的研究均處於初期階段,限制了篇章語義分析研究的繼續深入。事實上,按照張牧宇博士的論文[34],原文之外的相關背景知識能夠有效地幫助挖掘原文內容中的語義資訊。因此,原文並不能獨立於背景知識而存在,缺少背景知識必然會影響對原文的分析與理解。但是,目前缺少一種合適的背景知識表示方法,並且也缺少一種有效的將背景知識和原文進行連線的方法。這些問題限制了篇章語義分析效能的提升。

作為一個新興的研究熱點,篇章語義分析方面的研究還遠遠不夠,無論是背景知識獲取還是原文語義分析都有更進一步發展的空間。除本文介紹的應用之外,融入背景知識的篇章語義分析還可以應用在其他很多領域,例如:篇章語義分析結果有助於生成更好的文摘結果[49];篇章語義分析還可用於文字可讀性分析,即通過篇章語義分析判定文字結構是否合理、語義是否連貫,進而評估文章的可讀性[50]。總之,無論從理論研究的角度,還是從應用需求的角度,篇章語義分析都已經成為一個非常重要的研究方向。隨著研究工作的不斷深入和相關方法技術的逐漸成熟,篇章語義分析研究定會向更深入、更全面、更完善的目標前進,並促進機器翻譯、自動問答、自動文摘、以及自然語言生成等相關研究的發展。

作者:張牧宇, 劉銘, 朱海潮, 秦兵


本文來源於哈工大SCIR

原文連結點選即可跳轉

篇章語義分析:讓機器讀懂文章

相關文章