EMNLP 2019 | 基於BERT的跨語言上下文相關詞向量在零樣本依存分析中的應用

哈工大SCIR發表於2019-11-20

原文網址 : http://www.jiqizhixin.com/articles/2019-11-20-2

論文名稱：Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing
論文作者：王宇軒，車萬翔，郭江，劉一佳，劉挺
原創作者：王宇軒
下載連結：https://www.aclweb.org/anthology/D19-1575/

1.簡介

跨語言詞向量對於跨語言遷移學習具有重要意義。本文提出一種簡單快捷的離線跨語言BERT投射方法，該方法能夠利用預訓練好的BERT模型生成跨語言上下文相關詞向量。我們在零樣本跨語言依存分析任務中實驗了這種詞向量，取得了遠超使用傳統跨語言上下文無關詞向量方法的目前最好結果。我們還將這種詞向量與XLM(一種使用跨語言資料重新訓練BERT的方法)進行了對比，實驗表明在與該方法取得相近結果的情況下，我們的方法所需的訓練資料和計算資源遠少於XLM，同時訓練速度也更快。

我們公佈了程式碼和訓練好的17種語言投射到英語的模型，使用這些模型可以快速將不同語言的BERT表示向量投射到同一語義空間中。

程式碼及模型路徑為：

https://github.com/WangYuxuan93/CLBT

2.背景和動機

大部分現有的跨語言上下文相關詞向量訓練方法採用線上學習(On-Line Learning)策略，首先從頭開始利用跨語言資料訓練語言模型，之後從中抽取跨語言詞向量。這種方法不但需要大量計算資源和跨語言資料，而且訓練時會花費大量時間。

為了解決這一問題，我們提出跨語言BERT投射模型(Cross-Lingual BERT Transformation, CLBT)，利用現有的預訓練好的單語BERT模型，採用離線學習(Off-Line Learning)策略，訓練一個從源語言到目標語言的線性對映，將不同的上下文相關詞向量投射到同一語義空間中。由於在訓練時利用了包含上下文的詞對齊資料中的語義等價性，我們的方法能夠維持詞義資訊不變。

如圖1所示，西班牙語的BERT向量通過CLBT模型投射到英語的語義空間後，兩種語言中具有相近語義的向量會更接近。

EMNLP 2019 | 基於BERT的跨語言上下文相關詞向量在零樣本依存分析中的應用圖1 CLBT模型示意圖

3.方法

傳統上下文無關的跨語言詞向量學習方法一般只需要雙語詞典作為訓練的監督訊號。但在CLBT的訓練過程中，需要包含上下文資訊的詞對齊資料，才能獲得BERT的表示向量。因此我們使用無監督詞對齊工具獲得包含上下文的詞對作為訓練資料。

給定n個包含上下文資訊詞對，我們首先用預訓練好的單語BERT模型獲得它們的表示向量 EMNLP 2019 | 基於BERT的跨語言上下文相關詞向量在零樣本依存分析中的應用

。訓練目標為找到一個合適的線性對映W，使得經過其投射的源語言向量與其對應的目標語言向量距離最小：

當W為正交矩陣時，其可以通過奇異值分解(SVD)求得：

其中X和Y分別是源語言和目標語言的詞向量矩陣。

雖然該方法可以很快地計算出線性對映，但隨著訓練資料的增多，其執行所需記憶體也會顯著增大，因此我們還嘗試了用梯度下降(GD)方法求解該問題，並將結果與SVD方法進行了對比。

4.實驗

我們在Universal Dependency Treebanks (UD v2.2)上選取了18種語言進行了實驗，其中英語為源語言，其它語言為目標語言。在訓練時只在英語資料上訓練基於圖的Biaffine分析器模型，然後在CLBT的跨語言上下文相關詞向量的幫助下將該模型直接應用於目標語言上。

我們與3個基線模型進行了對比，其中FT-SVD是此前該資料集上最好的模型，他們利用了跨語言的上下文無關詞向量；mBERT為直接將多語言BERT模型(該模型使用一百餘種語言的語料進行訓練，但訓練時無顯式跨語言監督訊號)應用到該任務中代替跨語言詞向量；XLM利用跨語言資料從頭訓練跨語言的語言模型，然後從中抽取跨語言上下文相關詞向量。

表1 在UD v2.2資料上的實驗結果(LAS)與FT-SVD和mBERT的對比

表1對比了我們的模型與FT-SVD和mBERT，可以看出我們提出的CLBT模型在17種語言中的15種上都顯著優於這兩種基線方法，且平均LAS比此前該資料集上的最好模型(FT-SVD)高了2.91%。

表2 在UD v2.2資料上的實驗結果(LAS)與XLM的對比

表2中對比了我們的CLBT模型與XLM。我們在兩個模型都實驗了的4種語言上進行了對比，同時列出了二者使用資料量的對比。結果表明在與XLM取得近似效果的情況下，我們的CLBT模型使用的雙語訓練資料量要遠遠少於他們。

5.結論

本文提出了一種基於離線學習的跨語言上下文相關詞向量學習方法，顯著提高了零樣本跨語依存分析的效能。通過利用公開的預訓練好的單語BERT模型，我們的方法能夠在利用有限的雙語資料快速獲取跨語言上下文相關詞向量。由於在訓練過程中沒有針對依存分析任務進行微調，理論上來說用CLBT模型獲得的跨語言上下文相關詞向量可以應用到任何跨語言任務中。

XLM — 基於BERT的跨語言模型
2019-08-23
模型
【EMNLP 2023】基於知識遷移的跨語言機器閱讀理解演算法
2023-12-08
演算法
R語言作業：樣本容量與好樣本概率的關係
2020-11-02
R語言
C語言相關的基礎字串函式
2021-03-03
C語言字串函式
關於Clean Architecture在android中的應用
2018-05-15
Android
Go 語言的詞法分析和語法分析(1)
2021-03-23
Go詞法分析語法分析
java語言相關的問題
2019-03-04
Java
Java 英語單詞本 (基於有道翻譯)
2020-10-19
Java
函數語言程式設計及其在react中的應用
2019-03-02
函數程式設計React
自然語言理解技術在電商行業中的應用
2019-09-17
行業
nodejs在自然語言處理中的一些小應用
2019-02-19
NodeJS自然語言處理
基於 eBPF 的 Serverless 多語言應用監控能力建設
2023-03-06
eBPFServer
關於 fontawesome 庫在 Spartacus 專案中的應用
2023-04-04
【EMNLP 2023】基於大語言模型的複雜任務認知推理演算法CogTree
2023-12-08
模型演算法
關於python語言，其他的應用你知道嗎?
2020-07-21
Python
Android中關於Context的三言兩語
2019-11-26
AndroidContext
基於Python和TensorFlow實現BERT模型應用
2024-06-26
Python模型
BERT在多模態領域中的應用
2020-03-03
Go 語言的詞法分析和語法分析(2)—Import宣告的解析
2021-03-26
Go詞法分析語法分析Import
關於“斯金納箱”及相關理論在遊戲設計中應用的討論
2021-11-08
遊戲設計
文字情感分析(二)：基於word2vec和glove詞向量的文字表示
2019-05-19
怎樣生成一個好的詞向量
2018-06-16
Bert時代的創新：Bert在NLP各領域的應用進展
2019-06-10
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
ICCV 2019 | 基於醫療影像的早期診斷中不確定樣本的檢出
2019-09-04
應用層相關協議分析
2024-11-02
協議
關於C語言的常量
2024-04-29
C語言
基於CRF序列標註的中文依存句法分析器的Java實現
2019-01-16
CRFJava
（原創）IconFont（向量圖示字型）在Winform中的應用
2021-04-13
ORM
入門自然語言處理必看：圖解詞向量
2019-08-28
自然語言處理圖解
DDD中限界上下文與通用語言的作用
2021-06-06
自然語言處理工具包 HanLP在 Spring Boot中的應用
2018-10-31
自然語言處理HanLPSpring Boot
golang(gin框架)，基於RESTFUL的跨語言遠端通訊嘗試
2022-01-02
Golang框架REST
基於多語言的跨平臺靜態測試解決方案
2022-03-03
分析技術在PMP中的應用
2018-09-26
自然語言處理的一大步，應用Word2Vec模型學習單詞向量表徵
2018-08-01
自然語言處理模型
關於透明傳輸在通訊中的應用淺談
2023-11-10
關於 index.ts 在大型 Angular 專案中的應用
2022-07-10
IndexAngular

EMNLP 2019 | 基於BERT的跨語言上下文相關詞向量在零樣本依存分析中的應用

相關文章