©原創作者 | 朱林
論文解讀:
Contrastive Learning for Many-to-many Multilingual Neural Machine Translation
論文作者:
Xiao Pan, Mingxuan Wang, Liwei Wu, Lei Li
論文地址:
https://aclanthology.org/2021.acl-long.21.pdf
收錄會議:
ACL2021
01 介紹
目前機器翻譯的研究熱點仍然集中在英語與其他語言翻譯的方向上,而非英語方向的研究成果仍然寥寥無幾。
如何有效利用不同語言的特徵去構建模型,提高多種語言,尤其是非英語之間的翻譯水平是個越發重要的課題。
傳統思路中,為了解決兩種語言機器翻譯問題,人們往往分別學習這兩種語言的特徵再匹配,而忽略了兩種語言在特徵表達上的較大差異,導致模型效果較差。
本篇ACL會議論文提出了一種統一多語言翻譯模型mRASP2來改進翻譯效能,利用多語言對比學習能綜合表達的優點改進了機器翻譯效能,尤其提高了非英語方向的翻譯質量。
該模型由兩種技術支撐:
(1)對比學習,用於縮小不同語言表示之間的差距;
(2)對多個平行語料和單語語料進行資料增強,以進一步對齊標記表示。
實驗表明,以英語為中心的方向,mRASP2模型的效能優於現有的最佳統一模型,並且在WMT資料集的數十個翻譯方向上的效能超過了當前效能頂尖的mBART模型。
在非英語方向,與Transformer基線模型相比,mRASP2也實現了平均10 BLEU(效能指標)以上的效能改進。
02 方法
mRASP2需要輸入一對平行句子(或增強偽平行句子),並使用多語言編解碼器計算交叉熵損失。此外,它計算正樣本和隨機生成的負樣本的對比損失,總體框架如圖1所示:
圖2 通過替換同義詞詞典中具有相同含義的單詞,對平行資料和單語資料進行對齊增強。生成包括偽平行示例(左)和偽自平行示例(右)。
多語言轉換器
模型採用了多語言神經機器翻譯(Neural Machine Translation, NMT)模型學習多對多對映函式f,以將一種語言翻譯成另一種語言。
為了區分不同的語言,作者在每個句子之前新增了一個額外的語言識別標記,用於源端和目標端。
mRASP2的基礎架構採用的是最先進的Transformer模型。與之前的相關工作略有不同,作者選擇了12層編碼器和12層解碼器,更多的層數可以增加模型的容量。
為了簡化深度模型的訓練,作者對編碼器和解碼器的Word Embedding和Pre-norm Residual Connection應用Layer Normalization。
因此,作者的多語言NMT比Transformer模型強得多。
作者定義了
其中L是涉及訓練階段的M種語言的集合。
表示
的平行資料集,
D表示所有平行資料集。該模型訓練的損失函式採用了交叉熵的形式,定義為:
其中
語言中的一個句子,
是多語言Transformer模型的引數。
多語言對比學習
模型採用了多語言轉換器來隱式地學習不同語言的共享表示。mRASP2引入了對比損失來明確地將不同的語言對映到共享的語義空間。
對比學習的關鍵思想是最小化相似句子的表示差距,最大化不相關句子的表示差距。
形式上,給定一個雙語翻譯對是正樣本,
對比學習的目標是最小化以下損失:
其中sim(.)計算不同句子的相似度。+和-分別表示正樣本還是負樣本。
表示任意句子s的平均池化編碼輸出。
控制著區分正樣本和負樣本的難度。
在mRASP2的訓練過程中,可以通過聯合最小化對比訓練損失和翻譯損失來優化模型:
其中λ是平衡兩個訓練損失的係數。
對齊增強
作者基於前人提出的隨機對齊替換(Random Aligned Substitution, RAS)技術——一種為多語言預訓練構建程式碼切換句
03 實驗
以英語為中心的方向
表1和表2中羅列了作者實驗中得到的具有代表性的多個翻譯方向的效能增益結果。
監督翻譯如表1所示,mRASP2在10個翻譯方向上顯著提高了多語言機器翻譯的基線。以前,多語言機器翻譯在資料豐富的場景中表現不佳。
作者總結了其成功訓練的關鍵因素包括:
(1)提高了訓練批次:每批包含大約300萬個詞;
(2)增大了模型層數:從6層擴大到了12層;
(3)使用正則化方法來穩定訓練。
無監督方向如表2所示,作者觀察到mRASP2在無監督翻譯方向上取得了明顯有效的結果。實驗中,m-Transformer模型永遠不會觀察到En-Nl、En-Pt和En-Pl的語言對,即它在En→X的翻譯方向上完全無效。相比之下,mRASP2平均獲得+14.13BLEU分數,而沒有明確引入這些方向的監督資訊。
此外,mRASP2在Nl↔Pt方向上獲得了明顯有效的BLEU分數,即使它只在雙方的單語資料上進行了訓練。這表明通過在統一框架中簡單地將單語資料與平行資料合併,mRASP2就可以成功地實現了無監督翻譯。
非英語方向的零樣本翻譯
零樣本翻譯一直是多語言神經機器翻譯中的一個有趣話題。以前的工作表明,多語言NMT模型可以直接進行零樣本翻譯。
作者在OPUS-100零樣本測試集上評估了mRASP2。作者發現mRASP2效能顯著優於m-Transformer,並且大大縮小了與基於Pivot的模型的差距。這符合作者的直覺,即彌合不同語言的表示差距可以改善零樣本翻譯。
作者認為主要原因是對比損失、對齊增強和額外的單語資料能夠更好地表示與語言無關的句子。值得注意的是,其他模型是以犧牲英語為中心方向上翻譯質量作為代價實現了零樣本翻譯的效能提升。
相比之下,mRASP2在不損失以英語為中心的方向上的效能的情況下,大大提高了零樣本翻譯的效能。因此,mRASP2具有服務於多對多翻譯的巨大潛力,包括以英語為中心和非英語方向。
消融實驗
為了更好地解釋mRASP2的有效性,作者評估了不同設定模型的效能。作者總結了表4中的實驗結果。
①對③:③在有監督和無監督的場景中的效能與m-Transformer相當,而在零樣本翻譯方面實現了顯著的BLEU改進。這表明通過引入對比損失,作者可以在不損害其他方向的情況下提高零樣本翻譯質量。
②對④:②在零樣本方向上表現不佳。這意味著對比損失對於零樣本方向的效能至關重要。
⑤:mRASP2在所有三個場景中都進一步改進了BLEU,尤其是在無監督方向上。
相似性搜尋
mRASP2 w/o AA模型與m-Transformer模型的精度差(左),mRASP2模型與mRASP2 w/o AA模型的精度差(右)
如圖3所示,為了驗證mRASP2是否學習了更好的表示空間,作者進行了一組相似性搜尋實驗。相似度搜尋是根據餘弦相似度尋找另一種語言中每個句子的最近鄰的任務。
作者使用相似性搜尋任務的準確性作為跨語言表示對齊的定量指標,並用實驗證明了mRASP2更有利於這項任務,因為它擬合了跨語言的表示差距。
視覺化
為了視覺化跨語言的句子表示,作者在Ted-M中檢索每個句子的句子表示,在高維空間中產生34260個樣本。
為了便於視覺化,作者應用T-SNE降維方法將1024維降到2維。然後作者選擇3種代表性語言:英語、德語、日語,並基於2維表示描述雙變數核密度估計。
在圖4中明顯可以看到,m-Transformer無法對齊3種語言。相比之下,mRASP2更接近地繪製了3種語言的表示。
04 結論
本篇論文中,作者證明了對比學習可以顯著改善零樣本機器翻譯效能。結合額外的無監督單語資料,作者在多語NMT的所有翻譯方向上均取得了實質性的改進。
通過分析和視覺化mRASP2,發現對比學習傾向於縮小不同語言的表示差距。
作者的結果還表明了訓練出真正的多對多多語言NMT的可能性,該NMT在任何翻譯方向上都能很好地工作。
通過對本篇論文的解讀,我們能夠發現機器翻譯正在向多個不同的研究方向繼續深入發展:
(1) 英語方向翻譯正在朝非英語方向進行橫向擴充套件和遷移學習;
(2) 語言特徵表達正在朝更多維度和更有解釋性的維度進行擴充套件,比如本文的多語言融合特徵縮小了語言表達差距並進行了視覺化。
(3) 多語言統一翻譯模型的構建成為趨勢。
注:本篇論文的程式碼、資料和訓練模型均可從Github上獲得:
https://github.com/PANXiao1994/mRASP2
私信我領取目標檢測與R-CNN/資料分析的應用/電商資料分析/資料分析在醫療領域的應用/NLP學員專案展示/中文NLP的介紹與實際應用/NLP系列直播課/NLP前沿模型訓練營等乾貨學習資源。