基於表示學習的資訊抽取方法淺析

哈工大SCIR發表於2016-11-15

1 引言

資訊抽取(Information Extraction)是自然語言處理任務中的一個重要研究方向,其目的是從自然語言文字中抽取實體,關係和事件等事實資訊,並形成結構化的資料輸出 [1]。例如從人物自傳中抽取出其姓名,年齡,出生地,工作單位,親屬以及去過哪裡擔任過哪些職務。該任務起始於二十世紀八十年代,在Message Understanding Conference (MUC) [3]、Automatic Content Extraction (ACE) [4] 以及Text Analysis Conference (TAC) [8] 等評測會議的大力推動下,文字資訊抽取技術的研究得到蓬勃發展。在這些評測中,語言學專家往往都已將這些事實資訊預先定義為不同的類別,人們只需要識別這些事實資訊並將其分類即可,例如實體可分為:人名、地名和機構名。

從2010年開始,深度學習席捲整個人工智慧領域,在機器學習,自然語言處理,影像識別和語音合成等多個重大領域的研究均有重大突破,在資訊抽取領域亦是如此,科學家們將資訊抽取任務轉化為序列標註任務,通過不同的神經網路結構學習出詞彙的表示和句子的表示,並在此基礎上進行事實資訊的識別和分類,與傳統機器學習方法相比,這些表示資訊不需要人工進行特徵選擇,也不需要依賴於現有的自然語言處理工具,因此不但節省人工也能避免pipeline系統中所產生的誤差積累。根據最新統計,在2016年nlp頂會ACL (Annual Meeting of the Association for Computational Linguistics)的IE session中,僅有兩篇論文未使用基於表示學習的方法。

為了追趕時下最新的研究浪潮,本文以基於表示學習的資訊抽取方法為主題,重點介紹文字實體抽取、關係抽取和事件抽取的任務描述和研究方法,並且每個任務將給出一篇相關論文做具體講解.(本文中將會用到LSTM [7],CNN [11]  和Softmax [6]  三種基本的神經網路結構,其具體描述可見公眾號之前分享的深度學習教程,這裡不進行詳細描述)

2 基於表示學習的命名實體抽取

2.1 任務定義


命名實體識別任務旨在識別出待處理文字中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體,也有一些研究針對一些特定領域的特定型別的命名實體(例如:產品名稱、基因名稱等)進行研究。在實體識別任務中,為了更好的劃定實體的邊界,研究者們設計了一套基於IOBES的表示方法,其中B代表某一實體的開始單詞,I代表該單詞屬於實體的一部分但並非最開始和最後一個,E代表某一實體的結束單詞,S代表某一單詞單獨即為實體,O代表不屬於實體的單詞;例如一句英文描述Mark Watney visited Mars’,Mark’標註為'B-Per’代表一個人名的開始,'Watney’ 是 'E-Per’ 代表一個人名的結尾,Mars’是`S-Loc’表示`Mars’本身即是一個地點實體。

2.2 方法


接下來我們詳細介紹Lample等人在NAACL2016發表的一篇論文《Neural Architectures for Named Entity Recognition》 [10],其主要特點有二:第一點是設計並實現了一個 基於表示學習的CRF layer [9] , 該層有效捕獲了標籤間的依存資訊,例如(e.g., I-PER 標籤不能跟在 B-LOC 標籤後)。二是用一個Character-based lstm去學習單詞的字元級表示,該表示可以很好的解決語料中未登入詞的問題。

基於表示學習的資訊抽取方法淺析

圖1  基於雙向LSTM和CRF的神經網路框圖

圖1是該論文給出一個神經網路結構圖,其系統的輸入是一句文字基於表示學習的資訊抽取方法淺析,其中每一個單詞都被表示成一個向量;基於表示學習的資訊抽取方法淺析之後將每一個詞的向量輸入到一個雙向lstm網路當中,之後每一個詞能夠獲得一個基於前向資訊的表示基於表示學習的資訊抽取方法淺析和一個基於後向資訊的表示基於表示學習的資訊抽取方法淺析,再將這兩種表示串聯到一起基於表示學習的資訊抽取方法淺析作為該單詞在本句話中的一個潛在表示。之後作者實現了一個crf layer來學習label之間的潛在依存關係,公式如下:

基於表示學習的資訊抽取方法淺析

其中P是雙向lstm輸出的向量矩陣,P的大小是基於表示學習的資訊抽取方法淺析,n是句子單詞的個數,k是分類標籤的個數,表示一句話中第i個詞是label j的概率。A表示轉移矩陣。基於表示學習的資訊抽取方法淺析表示從基於表示學習的資訊抽取方法淺析基於表示學習的資訊抽取方法淺析的轉移權重。最終所得到的概率表示輸入到一個softmax函式進行分類。

接下來我們將簡要介紹該論文是如何用character資訊去學習word的向量表示。其具體實現如圖2所示,將之前的句子替換成單詞,將原先的單詞替換成每一個字元,採用相同的結構來學習不同字元組合的表示,因此不論單詞是否出現在訓練語料或者之前pre-train的word embedding裡,其都能根據字元給每個單詞生成一種表示,該方法可以避免未登入詞現象。

基於表示學習的資訊抽取方法淺析

圖2 基於雙向LSTM的字元級word embedding表示方法框圖

2.3 實驗分析

該論文最終在四種語言上驗證了其方法的有效性(英語、德語、荷蘭語和西班牙語,CoNLL-2002 and CoNLL- 2003),詳細引數可參考原文,具體結果如圖3所示,從實驗效果可以看到,該方法在四中語言中均取得了較好效果,並且說明對於命名實體識別任務character是一種非常有效的特徵。

基於表示學習的資訊抽取方法淺析

(a) 英語

基於表示學習的資訊抽取方法淺析

(b) 德語

基於表示學習的資訊抽取方法淺析

(c) 荷蘭語

基於表示學習的資訊抽取方法淺析

(d) 西班牙語

圖3  命名實體識別實驗結果


3 基於表示學習的實體關係抽取

3.1 任務定義


實體關係識別是一項自頂向下的資訊抽取任務,需要預先定義好關係型別體系,然後根據兩個實體的上、下文預測這兩個實體之間的語義關係屬於哪一種關係類別,其目的在於將實體間的抽象語義關係用確定的關係型別進行描述。我們一般只對同一句話中的兩個實體進行關係識別,因此這個任務可以描述為:給定一個句子 s 以及 s 中的兩個實體 Entity1 和 Entity2,預測 Entity1 和 Entity2 在句子 s 中的關係型別 rel,rel 的候選集合是預先定義好關係型別體系 R。例如(英國,卡梅倫)在句子“卡梅倫當選英國首相”中是“僱傭”關 系,而在句子“卡梅倫出生於英國”中是“籍貫-出生地”關係.

3.2 方法


我們簡單介紹一下zeng發表於coling 2014的一篇文章《Relation Classification via Convolutional Deep Neural Network》[12] ,該論文獲得了當年的best paper。

其主要思想是將實體對的表示分為兩類不同特徵表示,一類是詞典特徵,一類是句子全域性特徵。其結構圖如下圖所示:

基於表示學習的資訊抽取方法淺析

圖4  面向關係抽取任務的神經網路表示框圖

該系統輸入是一個帶有實體對標註的句子,句子中的每一個詞都會經過一個look up層從之前pre-trai的word embedding中找到對應的向量表示,之後用這些向量表示來學習詞典特徵和句子特徵,最終將這兩種特徵串聯起來通過一個softmax layer進行分類。

基於表示學習的資訊抽取方法淺析

圖5  字典特徵

其詞典特徵主要包含實體對的實體詞,實體對兩個詞相鄰詞,以及實體對的上位詞,最終將這些詞的向量表示串聯起來,輸入給最終決策層。如圖5所示。

其句子表示主要由兩部分組成,一部分是單詞特徵,即word embedding本身,還有一部分是位置特徵,即句子中單詞距離實體對的相對距離,例如一句話`[People] have been moving back into [downtown]‘,其實體對是people和downtown,而moving相對於實體對的距離則是3和-3,該論文將這些位置資訊自動錶示成向量,與word embedding連線起來作為詞表示輸入到一個卷機神經網路裡並通過一個max-pooling層得到該句子的向量表示,輸入決策層,其表示學習過程如圖6所示。

基於表示學習的資訊抽取方法淺析

圖6  基於卷積神經網路的句子表示學習框架圖


3.3 實驗分析

該論文最終在SemEval-2010 Task 8上進行了測試,和baseline相比其實驗效果最優,並且圖8說明該論文中抽取的不同特徵表示均存在積極作用。

基於表示學習的資訊抽取方法淺析

圖7  關係抽取實驗結果

基於表示學習的資訊抽取方法淺析

圖8  加入不同特徵的實驗結果 Andreevskaia2006


4 基於表示學習的事件抽取

4.1 任務定義


事件抽取是資訊抽取領域的一個重要研究方向。事件抽取主要把人們用自然語言表達的事件,以結構化的形式表現出來。根據定義,事件由事件觸發詞(Trigger)和描述事件結構的元素(Argument)構成。圖1結合ACE的事件標註標準詳細的表述了一個事件的構成。其中,“出生”是該事件的觸發詞,所觸發的事件類別(Type)為Life,子類別(Subtype)為Be-Born。事件的三個組成元素“毛澤東”、“1893年”、“湖南湘潭”,分別對應著該類(Life/Be-Born)事件模板中的三個元素標籤,即:Person、Time以及Place。(本文主要介紹事件觸發詞的抽取和識別)基於表示學習的資訊抽取方法淺析

圖9  ‘出生’事件的基本組成要素

4.2 方法

這裡我們介紹下我發表在acl2016上的一篇論文《A Language-Independent Neural Network for Event Detection》[5] .

事件觸發詞識別是一項非常具有挑戰性的任務,因為一個詞在不同的上下文可以觸發不同的事件,例如release在下圖中所示。

基於表示學習的資訊抽取方法淺析

圖10  ‘release‘所觸發的事件型別和句法分析結果

我們希望能夠根據語言間的相似性構造一個通用事件觸發詞系統,通過觀察發現序列和短語是一種語言獨立的結構資訊,不論哪一種語言,人在閱讀時都是逐字進行的,並且這種序列資訊相比於傳統的依存資訊不會損失重要資訊,例如在預測圖中第二個句子時,我們知道court是一個線索詞,然而在句法遺存中court和release沒有直接聯絡,因此難以預測,然而前向序列可以將court的資訊傳遞給release;此外我們認為任何一種語言實體短語都是連續的成塊出現,在預測圖中第一個句子時,如果我們知道這是一個關於機構和金錢的話題,我們就很容易來判斷release是一個`Transfer-Money‘ 事件,而不是`Release-Parole‘。

得益於深度學習技術的發展,我們分別選擇lstm模型和cnn模型來模擬序列資訊和區域性短語資訊。其結構如下圖所示:

基於表示學習的資訊抽取方法淺析

圖11  觸發詞為 “release”時的事件抽取結構框架圖.

基於表示學習的資訊抽取方法淺析

圖12  卷積神經網路框圖

最終我們將這兩個網路的輸出進行串聯並經過一個非線性層輸入到softmax layer進行類別識別

4.3 實驗分析


下表為我們在英文ace2005語料上的對比結果,我們的模型顯著優於傳統的事件觸發詞識別系統和其他深度學習模型。

基於表示學習的資訊抽取方法淺析

圖13  英文事件觸發詞識別實驗結果

此外,我們在西班牙語和中文上也進行了實驗,取得了較好的實驗效果。

基於表示學習的資訊抽取方法淺析

圖14 西班牙語和中文的事件觸發詞識別實驗結果


5 總結與展望

本文簡要介紹了資訊抽取的相關概念,包括命名實體識別、關係識別和事件識別,並在此基礎上針對每一任務重點介紹一篇基於表示學習方法的文章,希望這些資訊能夠更好的幫助讀者進行理解並掌握一定的前沿知識。在本文最後,我們基於大量的調研和近幾年的研究經驗提出一些值得進一步發掘的研究點:

1. 資訊抽取包含多個子任務,這些相關任務之間往往存在著一定的約束和限制,命名實體識別的準確與否是影響關係抽取和事件元素識別的一個重要因素,如果可以對這些子任務的內在機理和特徵進行融合,必然會使資訊抽取技術的效能得到全面的提高。因此,如何將這些隱含約束加入到現有神經網路模型之中是廣大研究人員進一步研究的重點。

2. 目前來看,基於表示學習的資訊抽取技術的抽取策略都要依賴於一定的類別體系,這些類別往往都是由語言學專家預先設定,然而無論體系多麼豐富,都會在新語料中遇到新的實體、關係或事件型別,超出之前的設定。因此,如何通過表示學習實現一個開放式的資訊抽取系統是未來的一個重要研究方向。

3. 關係抽取技術的研究在國外已經有近三十年左右的發展史,積累了相關語料和研究成果,然而,國內針對中文的關係抽取研究起步較晚,並且缺少相關評測支援。因此,對於我們這些中文處理領域的研究者來講,如何結合中文的特點(中文偏旁部首、漢語拼音),將一些成熟的技術(中文分詞)和資源 (Hownet,同義詞詞林)應用到中文資訊取領域是一個值得國內學者積極探索的任務。


作者:哈工大SCIR博士生 馮驍騁

6 參考文獻

[1] 趙軍, 劉康,周光有, and 蔡黎. 2011. 開放式文字資訊抽取. 中文資訊學報, 25(6):98–111.

[2] A. Andreevskaia and S. Bergler. 2006. Mining wordnet for fuzzy sentiment: Sentiment tag extraction from wordnet glosses. In Proceedings of EACL, volume 6, pages 209–216.

[3] Nancy Chinchor and Patricia Robinson. 1997. Muc-7 named entity task definition. In Proceedings of the 7th Conference on Message Understanding, page 29.

[4] George R Doddington, Alexis Mitchell, Mark A Przybocki, Lance A Ramshaw, Stephanie Strassel, and Ralph M Weischedel. 2004. The automatic content extraction (ace) program-tasks, data, and evaluation. In LREC, volume 2, page 1.

[5] Xiaocheng Feng, Lifu Huang, Duyu Tang, Bing Qin, Heng Ji, and Ting Liu. 2016. A language-independent neural network for event detection. In The 54th Annual Meeting of the Association for Computational Linguistics, page 66.

[6] Geoffrey E Hinton and Ruslan R Salakhutdinov. 2009. Replicated softmax: an undirected topic model. InAdvances in neural information processing systems, pages 1607–1614.

[7] Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780.

[8] Heng Ji, Ralph Grishman, Hoa Trang Dang, Kira Griffitt, and Joe Ellis. 2010. Overview of the tac 2010 knowledge base population track. In Third Text Analysis Conference (TAC 2010), volume 3, pages 3–3.

[9] John Lafferty, Andrew McCallum, and Fernando Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the eighteenth international conference on machine learning, ICML, volume 1, pages 282–289.

[10] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. 2016. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.

[11] Yann LeCun, Yoshua Bengio, and et al. 1995. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10).

[12] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao, et al. 2014. Relation classification via convolutional deep neural network. In COLING, pages 2335–2344.


本文來源於哈工大SCIR

原文連結點選即可跳轉

基於表示學習的資訊抽取方法淺析

相關文章