ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

PaperWeekly發表於2020-09-22

論文標題:

Neural Machine Translation with Universal Visual Representation

論文作者:

Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao

論文連結:

https://openreview.net/forum?id=Byl8hhNYPS

收錄情況:

ICLR 2020 (Spotlight)

程式碼連結:

https://github.com/cooelf/UVR-NMT

長期以來,機器翻譯都只涉及到文字之間的轉換,但實際上,人的感知功能可以是“多模態”的。

本文提出一種通用的視覺表徵,將圖片資訊融合到機器翻譯模型中。

使用這種視覺知識融合方法,不需要額外的雙語-圖片標註資料,模型就能夠在多個資料集上取得顯著的效果提升。

多模態與機器翻譯

機器翻譯是兩種語言間的轉換,比如“A dog is playing in the snow”翻譯為中文就是“小狗在雪地裡玩耍”。

但人類理解世界不只是用文字,還有視覺、聽覺等感知能力;並且翻譯的過程需要保持“語義”不變。比如下面的圖:

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

講中文的人會說“小狗在雪地裡玩耍”,而講英文的人會說“A dog is playing in the snow”。也就是說,人們對客觀世界的本質認知是相同的,只是“方法”不同,體現在語言上,就是語法上的差異。

為此,我們可以假設在機器翻譯模型中,融入這種“客觀的世界知識”,比如把圖片資訊加入,以此期望增強翻譯能力。同時考慮文字和圖片,這就是一種多模態。

然而,過去的翻譯-圖片研究大都需要大量的雙語-圖片標註資料,這在資料上成為一個研究的瓶頸。本文針對這種情況,提出“通用的視覺表示”,僅用單語-圖片標註資料,就能顯著提高機器翻譯的效果。

本文的方法在資料集EN-RO,EN-DE,EN-FR上均有約一個BLEU值的提高,這說明了本方法的有效性。

具體來說,本文貢獻如下:

  • 提出一種通用的視覺表示方法,無需雙語-圖片標註語料;

  • 該方法可以在只有文字的資料集上使用;

  • 實驗證明了該方法效果提升的一致性。

在閱讀完本文之後,讀者可以思考下述問題:

  • 如果要翻譯單語-圖片資料集ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果中沒有的語言,可以怎麼做?

  • 在融合步驟,是否可以有其他的方法進行融合?

  • 你認為本文這種方法從邏輯上是否真的有效?為什麼?

通用視覺表示

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果機器翻譯中融合圖片資訊 ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

實驗

我們在三個資料集上進行實驗:WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。這三個資料集大小從小到大增加,從而在不同大小的資料集上都能驗證該方法。

下表是在這三個資料集上的結果,++表示顯著更優。

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

可以看到,和基線模型(Trans.(base/big))相比,本文的方法(+VR)在三個資料集上都能得到顯著的提升,平均提升約一個BLEU值。同時,只引入了很少的引數量,這就不會使訓練時間幾乎不會增加。

下表是在資料集Multi30K上的結果,這是一個多模態資料集。可以看到,即使在多模態設定下,本文方法依舊能夠取得顯著結果。

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

小結

本文提出了一種簡單、有效的多模態視覺知識融合方法——首先構建從主題詞到圖片的查詢表,然後對輸入句子找到相關的圖片,然後使用ResNet提取圖片資訊融入到機器翻譯模型中。

使用這種方法,可以避免對大規模雙語-圖片資料的依賴。實驗結果也表明,這種方法可以一致地提高翻譯效果。

思考題討論

ICLR 2020 | 多模態下使用圖片資訊顯著增強機器翻譯效果

相關文章