論文名稱:Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing
論文作者:王宇軒,車萬翔,郭江,劉一佳,劉挺
原創作者:王宇軒
下載連結:https://www.aclweb.org/anthology/D19-1575/
1.簡介
跨語言詞向量對於跨語言遷移學習具有重要意義。本文提出一種簡單快捷的離線跨語言BERT投射方法,該方法能夠利用預訓練好的BERT模型生成跨語言上下文相關詞向量。我們在零樣本跨語言依存分析任務中實驗了這種詞向量,取得了遠超使用傳統跨語言上下文無關詞向量方法的目前最好結果。我們還將這種詞向量與XLM(一種使用跨語言資料重新訓練BERT的方法)進行了對比,實驗表明在與該方法取得相近結果的情況下,我們的方法所需的訓練資料和計算資源遠少於XLM,同時訓練速度也更快。
我們公佈了程式碼和訓練好的17種語言投射到英語的模型,使用這些模型可以快速將不同語言的BERT表示向量投射到同一語義空間中。
程式碼及模型路徑為:
https://github.com/WangYuxuan93/CLBT
2.背景和動機
大部分現有的跨語言上下文相關詞向量訓練方法採用線上學習(On-Line Learning)策略,首先從頭開始利用跨語言資料訓練語言模型,之後從中抽取跨語言詞向量。這種方法不但需要大量計算資源和跨語言資料,而且訓練時會花費大量時間。為了解決這一問題,我們提出跨語言BERT投射模型(Cross-Lingual BERT Transformation, CLBT),利用現有的預訓練好的單語BERT模型,採用離線學習(Off-Line Learning)策略,訓練一個從源語言到目標語言的線性對映,將不同的上下文相關詞向量投射到同一語義空間中。由於在訓練時利用了包含上下文的詞對齊資料中的語義等價性,我們的方法能夠維持詞義資訊不變。如圖1所示,西班牙語的BERT向量通過CLBT模型投射到英語的語義空間後,兩種語言中具有相近語義的向量會更接近。圖1 CLBT模型示意圖
3.方法
傳統上下文無關的跨語言詞向量學習方法一般只需要雙語詞典作為訓練的監督訊號。但在CLBT的訓練過程中,需要包含上下文資訊的詞對齊資料,才能獲得BERT的表示向量。因此我們使用無監督詞對齊工具獲得包含上下文的詞對作為訓練資料。
給定n個包含上下文資訊詞對,我們首先用預訓練好的單語BERT模型獲得它們的表示向量。訓練目標為找到一個合適的線性對映W,使得經過其投射的源語言向量與其對應的目標語言向量距離最小:當W為正交矩陣時,其可以通過奇異值分解(SVD)求得:雖然該方法可以很快地計算出線性對映,但隨著訓練資料的增多,其執行所需記憶體也會顯著增大,因此我們還嘗試了用梯度下降(GD)方法求解該問題,並將結果與SVD方法進行了對比。我們在Universal Dependency Treebanks (UD v2.2)上選取了18種語言進行了實驗,其中英語為源語言,其它語言為目標語言。在訓練時只在英語資料上訓練基於圖的Biaffine分析器模型,然後在CLBT的跨語言上下文相關詞向量的幫助下將該模型直接應用於目標語言上。我們與3個基線模型進行了對比,其中FT-SVD是此前該資料集上最好的模型,他們利用了跨語言的上下文無關詞向量;mBERT為直接將多語言BERT模型(該模型使用一百餘種語言的語料進行訓練,但訓練時無顯式跨語言監督訊號)應用到該任務中代替跨語言詞向量;XLM利用跨語言資料從頭訓練跨語言的語言模型,然後從中抽取跨語言上下文相關詞向量。表1 在UD v2.2資料上的實驗結果(LAS)與FT-SVD和mBERT的對比表1對比了我們的模型與FT-SVD和mBERT,可以看出我們提出的CLBT模型在17種語言中的15種上都顯著優於這兩種基線方法,且平均LAS比此前該資料集上的最好模型(FT-SVD)高了2.91%。表2 在UD v2.2資料上的實驗結果(LAS)與XLM的對比表2中對比了我們的CLBT模型與XLM。我們在兩個模型都實驗了的4種語言上進行了對比,同時列出了二者使用資料量的對比。結果表明在與XLM取得近似效果的情況下,我們的CLBT模型使用的雙語訓練資料量要遠遠少於他們。本文提出了一種基於離線學習的跨語言上下文相關詞向量學習方法,顯著提高了零樣本跨語依存分析的效能。通過利用公開的預訓練好的單語BERT模型,我們的方法能夠在利用有限的雙語資料快速獲取跨語言上下文相關詞向量。由於在訓練過程中沒有針對依存分析任務進行微調,理論上來說用CLBT模型獲得的跨語言上下文相關詞向量可以應用到任何跨語言任務中。