本文介紹哈爾濱工業大學社會計算與資訊檢索研究中心(HIT-SCIR)錄用於IJCAI 2018的論文《Improving Low Resource Named Entity Recognition using Cross-lingual Knowledge Transfer》,在稀缺資源語言實體識別任務中,我們在原有LSTM-CRF模型的基礎上,利用雙語詞典作為跨語言資訊傳播橋樑,為每個稀缺資源語言詞語學習英文語義空間下的語義表示,並對映到稀缺資源語言空間增強原有表示。在西班牙語、荷蘭語和中文三種語言資料集上進行實驗,結果顯示,通過加入跨語言資訊表示,實體識別效能平均提高大於3%。本論文的資料和程式碼;https://github.com/scir-code/lrner
論文作者:馮驍騁、 馮夏衝、 秦兵、 劉挺
關鍵詞:命名實體識別,稀缺資源語言,LSTM-CRF,知識表示
聯絡郵箱:xcfeng@ir.hit.edu.cn
個人主頁:http://ir.hit.edu.cn/~xcfeng/
1. 引言
命名實體識別是資訊抽取中一個最為重要的子任務,並且該任務可以為後續資訊抽取任務 (關係抽取、事件抽取和實體消歧) 提供幫助。實體識別的目的是從文字中識別出事物的名稱並進行分類,例如最常用的人名、地名和機構名。傳統的命名實體識別方法大多采用有監督的機器學習模型,如支援向量機和條件隨機場模型。儘管這些方法取得了相對較好的結果,但是這類方法嚴重依靠於訓練資料的大小以及特徵表示的好壞;此外還有一些基於神經網路的方法,該類方法可以從文字中自動選擇特徵,並且實驗效果更優。
早期的研究人員指出,不同的語言間包含完整的實體語義線索。基於這一真實假設,本論文提出一種利用輔助語言的語義資訊去提高目標語言實體識別結果的神經網路模型。特別地,本文通過利用不同語言間的翻譯詞典 (目標語言到輔助語言) 建立起了不同語言之間的橋樑,不僅可以進行語義層面的特徵傳遞,還可以將實體型別分佈特徵進行有效的傳輸。例如,圖1句子中的 “本” 字,雖然經常在 中文中使用,但是很少作為名字姓氏出現,因此模型在判斷的過程中很難對其進行正確分類。然而 “本” 的英文翻譯 “Ben” 卻經常在英文中當作姓名出現,因此,如果在考慮“本” 的時候能同時考慮其英文語義將有助於模型進行判斷。
圖1: Example of NER labels with bilingual lexicon.
2. 方法
基於之前利用跨語言(雙語詞典)知識幫助目標語言實體識別任務的動機,本節介紹一個通用的跨語言表示學習框架,去增強目標語言的語義表示。具體而言我們將首先介紹一下當前最好的實體識別模型LSTM-CRF模型,之後在此基礎上學習當前語言的跨語言詞典表示,然後考慮到詞典覆蓋率問題,去額外建模一個對映函式學習沒有詞典翻譯的詞語的跨語言表示,最後再學習在目標語言和輔助語言中各個詞彙的的實體型別分佈表示,將其作為額外特徵加入到模型中。
2.1 LSTM-CRF
本節中,我們採用LSTM-CRF作為我們的基礎模型,並在此基礎上進行擴充套件。該網路由兩個長短期記憶網路組成,一個前向記憶網路和一個後向記憶網路,前者用於學習前向的序列資訊,後者用於學習後向的序列資訊。的輸入是正序的文字詞向量,的輸入是倒序的文字詞向量,每個詞的隱層表示等於之前詞的表示和之後詞的表示。最終通過串聯得到每個詞i的隱層表示,如圖2所示,其中代表word embedding,代表當前單詞的字元表示,可以通過RNN網路(如圖3)或者CNN網路進行學習。
圖 2: Main architecture of LSTM-CRF Model.
CRF
對於實體識別任務而言,一個簡單且有效的方法就是將學到的每一個詞的隱層表示作為特徵輸入到最終判別器中,之後對每一個詞打出相應的標籤。在神經網路模型中,最常用的方式就是將該隱層對映到所需分類的特徵維度,之後選取概率最大的一維作為其實體類別,該方法也稱之為softmax。儘管該模型在獨立的序列標註任務中取得了成功,例如詞性標註,但是該模型忽略了標籤間的依賴關係,這一缺點導致了部分精度的損失。實體識別任務存在某些內在限制,例如I-PER 標籤並不能接在B-LOC標籤的後邊。因此,有人提出用條件隨機場模型(CRF)來學習標籤之間的關係,而不是進行獨立的標註。輸入一句話X和對應的標籤Y,
圖 3: The character embeddings of the word “Ben” are given as input to a bidirectional LSTM.
根據CRF模型定義其打分函式為:
其中是一個轉移矩陣,其中每一維代表從標籤i到標籤j的轉移概率。P是神經網路輸出的得分,代表第i個詞被標記為第個標籤的得分。
在測試階段,我們根據其最大分類概率來確定其實體類別:
BIO標註體系
對於實體識別任務而言,其目的是給輸入的文字中每一個詞打一個對應的標籤。一個實體可能由多個單片語成,因此有專家設計了BIO標註體系,其中B是beginning(開始)的縮寫,I是inside(中間)的縮寫,O是outside(非標籤)的縮寫,將每個單詞標註為其中一種,例如圖1所示,"美聯儲''只由一個詞構成,並且為機構,因此標註為"B-Org'',而"本 伯南克''由兩個詞構成,所以"本''標註為"B-Per'',"伯南克''為"I-Per''。其它詞均為"O''。
2.2 雙語詞典語義表示
在本節中,我們將介紹兩種方法去學習目標語言詞語在輔助語言語義空間的表示,可以簡化為學習中文詞語在英文翻譯詞典上的語義表示,具體而言,分為基於LTSM表示和Attention表示。基於LTSM表示的學習方法是指將詞典中某個中文詞的不同翻譯隨機組成一個序列,之後用一個雙向LSTM模型去建模,最終將兩個隱層的表示串聯作為跨語言知識表示,如圖4右上所示。基於Attention表示就是指用當前中文詞到對應的翻譯詞典釋義中去尋找相關的詞彙的權重分佈,並進行加權求和得到對應的跨語言知識表示,如圖4右下所示。其中代表中文詞彙的某一翻譯詞條。
圖 4: The character embeddings of the word “Ben” are given as input to a bidirectional LSTM.
2.3 基於對映的雙語詞典表示策略
在上一節中,我們介紹瞭如何利用雙語詞典去學習跨語言的詞彙表示,但是通過統計我們發現,大部分現有的雙語詞典覆蓋率相對較低,並不能夠完全滿足我們的需求,例如以conll 2002中的西班牙語和荷蘭語為例,採用Facebook公開的雙語詞典其覆蓋率均不足40%,如表1所示。
表 1: Bilingual Lexicons used in our experiments on Spanish and Dutch.
為了解決這一問題,我們提出了一種基於線性對映函式的解決策略,利用具有雙語翻譯的詞彙去學習一個由目標語言表示到輔助語言空間的對映函式,之後將那些沒有翻譯的詞彙利用這一對映學習其跨語言表示。具體公式如下:
其中M是對映矩陣,是有翻譯的目標語言詞彙。我們最小化如下損失函式去學習矩陣M,
在我們獲得矩陣M之後,對於沒有翻譯的目標語言詞彙, 可以通過對映學習其跨語言表示
2.4 實體型別分佈特徵表示學習
在本節中我們將介紹如何學習詞彙的實體分佈特徵,該特徵可以理解為某一詞彙成為某一實體的可能性,該特徵是一種語言無關的特徵,因此我們可以從目標語言和輔助語言兩個空間進行學習。並且該特徵可以一定程度上幫助我們去進行實體識別,因為通過向量化的詞彙表示其可以自然的去計算某一相似度,而且word embedding之間保持某些語義特性,例如我們對人名、地名和機構名各學習一個表示,則自然而然的知道 "Microsoft''距離機構的表示應該更近,而"Bill Gates''距離人的表示更近, 我們希望學習詞彙的實體分佈特徵並將其用於實體識別模型中。具體計算過程如圖5所示,
圖 5: The architecture of Entity Type Distribution.
其中代表任意語言中的某一詞彙的word embedding,代表某一實體型別的表示,例如人的表示,我們將每個實體型別隨機選取十個進行加和平均作為其初始值。之後計算與各個實體型別的cos相似度,作為一種新的特徵加入到LSTM-CRF的模型輸入中,如圖6.
圖 6: Main architecture of our model.
2.5 模型訓練
在訓練過程中,我們將實體識別的交叉熵損失函式和2.3節講的對映函式損失函式一起進行學習,其表示為:
3. 實驗
我們在西班牙語、荷蘭語和中文上進行實驗,其語料如下表2所示
表 2: # of sentences.
我們將自己所提的方法進行了不同的模型組合,其西班牙語和荷蘭語結果如表3所示,中文結果如表4所示,均顯示我們的方法獲得了最好的效果。
表 3: Comparison of different methods on low resource NER.
表 4: Comparison of different methods on Chinese NER.
此外,我們為了驗證所提模型對於未登入實體的有效性,進行了分組實驗,其結果如下表5所示,其中A代表測試集中在訓練集中出現過的實體,B代表測試集中的實體未在訓練集裡出現過,最終,我們可以看到我們的模型在B資料集獲得了更多的提升,說明跨語言知識的引入對於未登入實體的識別有非常顯著的作用。
表 5: Comparison of the results for LSTM-CRF, LM-LSTM-CRF and our LSTM-based networks. A denotes the entities appearing in both training and test datasets, and B indicates all other cases. Evaluation metric is F measure
4. 結論
在面向資源稀缺語言的實體識別任務中,我們提出了一個通用的跨語言語義表示框架,我們通過學習跨語言的知識來增強目標語言的語義表示,使得目標語言能夠在實體識別任務上獲得更好的結果,具體而言,我們學習了兩種跨語言知識表示方法,以及一種基於對映的詞典擴充表示方法和基於實體型別分佈的表示特徵。在三種語言(西班牙語、荷蘭語和中文)上進行實體識別實驗,與標準的LSTM-CRF模型對比,我們的方法能夠平均獲得超過3%的提升。在未來的工作中,我們計劃將該框架用於其它序列標註和文字分類任務。