ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

微软研究院AI头条發表於2018-07-18

原文網址 : https://www.jiqizhixin.com/articles/2018-07-22-11

編者按：隨著神經機器翻譯的快速發展，英語、法語等大語種之間的翻譯任務已經能夠達到良好的翻譯效果，而小語種的翻譯仍然是一個難題。與大語種豐富的語料資料相比，小語種機器翻譯面臨的主要挑戰是語料的稀疏性問題。為了更好地解決這一問題，微軟亞洲研究院自然語言計算組提出了一個呈三角結構的神經機器翻譯模型TA-NMT，利用大語種的豐富語料來提升小語種機器翻譯的能力。

近年來，神經機器翻譯發展迅速，在諸如英法、英德、中英等許多大語種（Rich Language）翻譯任務上均取得了突破性成果。但因為神經機器翻譯的模型引數量龐大，且訓練方法為極大似然估計，所以需要大量的對齊語料，比如數百萬個句對，才能得到一個比較理想的翻譯模型。

研究表明，如果對齊語料數量過少，如只有十幾萬個句對，那麼神經機器翻譯模型會在這個小資料集上產生比較嚴重的過擬合，從而導致其效能低於傳統的統計機器翻譯模型，這被稱為神經機器翻譯的資料稀疏性問題（Low-resource Problem）。這個問題普遍存在而且非常關鍵，尤其是在小語種（Rare Language）的翻譯問題上。通常情況下，一個小語種（如蒙古語）和其他任意一種語言之間的雙語資料常常是稀疏的，如果稀疏性問題不解決，將會嚴重影響神經機器翻譯在小語種上的翻譯應用。

為了解決這一問題，業界已經做出了很多嘗試。方法大致分為兩類：第一類方法是充分利用容易獲取的單語資料，典型的方法為Back-translation。它利用反向的翻譯模型，將目標語言端的單語資料翻譯成源語言的資料，通過這一方法構造偽雙語資料來訓練正向的翻譯模型。這一方法可以擴充套件為將兩個方向的翻譯模型結合起來進行聯合訓練（Joint Training），利用源語言和目標語言的單語資料來同時提升兩個方向的翻譯模型；第二類方法為多語言模型方法，典型的有multilingual模型。它針對每種語言分別定義了編碼器和解碼器，並通過共享的attention機制來完成不同語種之間的翻譯。

在本篇論文中，我們提出了第三類方法——充分利用大語種豐富的對齊語料來提升小語種機器翻譯的能力。讓我們設想圖1中的場景，X和Y為兩個大語種，如英語和法語，它們之間有很豐富的雙語資料。Z為一個小語種，如蒙古語，它和X以及Y之間只有少量的雙語資料。而我們的目標是要提升X↔Z和Y↔Z，即四個包含小語種的翻譯模型的翻譯效能。我們將這一方法稱為TA-NMT，即三角結構神經機器翻譯模型（Triangular Architecture Neural Machine Translation）。

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

圖1 典型小語種場景

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

圖2 用X和Y之間的豐富語料提升四個包含小語種的翻譯模型

廣義EM優化

在我們提出的方法中，我們將小語種Z所在的空間作為隱空間，對X→Y和Y→X的翻譯進行建模，以充分利用X和Y之間的豐富語料。這樣一來，X→Y的翻譯過程就可以拆分為兩個步驟X→Y和Z→Y，然後就可以用EM演算法對這兩個過程進行迭代優化。Y→X的翻譯過程也是如此。具體來說，以X→Y方向為例，通過將Z作為隱變數，我們利用Jensen不等式，對優化目標log p(y|x)進行重寫，得到：

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

其中Q(z)為隱變數z的一個任意後驗分佈，L(Q)即為我們得到的優化下界。由Q(z)的任意性，我們可以選擇Q(z)=p(z|x)作為z的後驗，這樣一來優化下界就可以顯式地寫出來，即：

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

同時，由於Q(z)的選擇，我們也可將log p(y|x)與L(Q)之間的誤差推匯出來，即：

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

其中KL(·)為Kullback–Leibler divergence。這樣，我們便可以用廣義EM演算法對上式進行最大化優化。在E步驟中，我們最小化KL項，使得從x到z和從y到z的結果儘可能一致，即：

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

在M步驟中，我們最大化優化下界L(Q)，最大化從z到y得到的最終翻譯期望，即：

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

聯合EM訓練

其實在上面的推導中，我們發現，X→Y方向的訓練中，也用到了Y→X才會更新的模型p(z|y)；反之，在Y→X方向的訓練中，也用到了X→Y才會更新的模型p(z|x)。所以我們可以將兩個方向結合起來，進行聯合的迭代訓練，從而可以同時優化四個小語種翻譯模型。其過程如下圖所示，其中紅框表示該步驟負責優化的翻譯模型。

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

圖3 聯合EM訓練過程

實驗

我們的實驗用到了MultiUN和IWSLT2012兩個資料集，均採用英語和法語作為大語種。在MultiUN資料集中，我們採用阿拉伯語和西班牙語作為模擬的小語種；在IWSLT資料集中，我們採用羅馬尼亞語和希伯來語作為真實場景的小語種。

實驗中，我們比較了兩個baseline模型，一個是經典的神經機器翻譯模型RNNSearch，另外一個是Phrase-based統計機器翻譯模型。此外，我們還比較了兩個teacher student和back-translation兩個模型。由於TA-NMT中沒有用到Z端的單語資料，所以我們將TA-NMT方法進行了進一步擴充套件，將back-translation訓練的模型作為TA-NMT的初始模型，在此基礎上進行進一步聯合EM訓練，我們稱這個擴充套件方法為TA-NMT(GI)。其中GI表示good initialization。實驗結果如下表所示：

可以看到，在沒有引入Z端單語資料的情況下，TA-NMT的效能高於RNNSearch、PBSMT、T-S。在引入Z端單語資料的情況下，TA-NMT(GI)的效能高於BackTrans。

同時，我們畫出了英語-法語-阿拉伯語組和英語-法語-羅馬尼亞語組的訓練曲線。下圖中縱軸為相應驗證集上的BLEU值，橫軸為訓練中的模型引數的更新次數。可以看到，整個過程中，E步和M步中優化的兩個模型效能均穩步上升。

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

總結來說，我們提出的TA-NMT訓練模型充分利用大語種語言對之間豐富的雙語資料來提升小語種翻譯模型的效能。基本思路是在大語種之間的翻譯過程中將小語種作為中間隱變數引入，將該翻譯過程拆分為兩個經由小語種的翻譯過程，從而可以用EM方法進行優化。同時我們提出了聯合EM訓練方法，可以同時對四個小語種翻譯模型進行優化。

參考文獻：

Shuo Ren, Wenhu Chen, Shujie Liu, Mu Li, Ming Zhou, Shuai Ma, Triangular architecture for rare language translation, ACL 2018.

論文連結：

https://arxiv.org/abs/1805.04813

HMS Core 機器學習服務6.4.0版本更新啦，文字翻譯功能增加10種小語種語言型別！
2022-03-30
機器學習型別
多對多多語言神經機器翻譯的對比學習
2022-01-30
Mac多語種線上翻譯工具——Translatium for Mac
2020-06-04
Mac
微軟提出新型通用神經機器翻譯方法，挑戰低資源語言翻譯問題
2018-05-28
微軟
源語言、目標語言、翻譯器、編譯器、直譯器
2019-05-07
編譯
神經機器翻譯實戰
2018-12-22
16大熱門出海語種出爐，本土譯員談遊戲翻譯的“坑”
2019-07-29
遊戲
機器配音微信小程式原始碼多種語音任
2021-09-30
微信小程式原始碼
IDL封裝百度翻譯API實現自動翻譯和語種識別
2024-06-26
封裝API
訊飛翻譯機搶鏡背後，跨語種溝通邁入全新時代
2022-08-10
[譯]Python作為一種程式語言有多強大？
2019-02-16
Python
500億引數，支援103種語言：谷歌推出「全球文字翻譯」模型
2019-10-13
谷歌模型
Go 語言實現解析器翻譯
2018-05-13
Go
語音翻譯軟體怎麼用？怎麼實現語音的翻譯
2019-08-20
java語言屬於哪種語言
2021-09-11
Java
[翻譯] Go 語言入門
2019-07-19
Go
《Nature》子刊：不僅是語言，機器翻譯還能把腦波「翻譯」成文字
2020-04-27
硬核觀察 #795 首個可以翻譯無文字語言的口語翻譯 AI
2022-10-20
AI
超實用的語言翻譯器：Linguist for Mac
2022-11-07
NGUIMac
使用google翻譯 api 翻譯中文成其他語言
2018-08-06
GoAPI
FAIR & NYU開發XNLI語料庫：15種語言（含低資源語言）
2018-11-12
AI
GitHub - paulfitz/mlsql: 將英語直接翻譯成SQL語句！
2019-06-06
GithubSQL
Swift-語音識別、翻譯
2019-03-20
Swift
Easy Translator語言翻譯類工具
2022-04-06
R語言
Linguist for Mac(語言翻譯軟體)
2022-05-28
NGUIMac
直播實錄 | 非自迴歸神經機器翻譯 + ICLR 2018 論文解讀
2018-03-12
ICLR
MySQL 三種新增語句
2019-11-03
MySql
MySQL 四種新增語句
2019-11-03
MySql
Oracle釋出多語種虛擬機器平臺GraalVM 1.0
2018-05-06
Oracle虛擬機LVM
C語言編譯器手機版
2020-12-08
C語言編譯
如何讓AI理解數學？Facebook神經網路透過「語言翻譯」求解數學難題
2020-07-01
AI神經網路
線上文字翻譯能力新增14個直譯模型，打造以中文為軸心語言的翻譯系統
2023-02-28
模型
c語言中的三種迴圈語句結構
2024-07-27
C語言
C語言：一種高效、易學的程式語言
2021-02-04
C語言
英漢互譯線上翻譯器如何語音互譯中英文
2019-10-21
哪種程式語言最適合產品經理？
2024-03-14
語言模型與神經網路
2024-08-25
模型神經網路
自然語言處理頂會 ACL 2018 參會見聞
2018-07-25
自然語言處理

ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力

相關文章