百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

機器之心發表於2017-12-14

近日,AAAI 2018 公佈論文接收列表,百度機器翻譯團隊的論文《Multi-channel Encoder for Neural Machine Translation》上榜。文章提出了一種多通道編碼器(MCE)模型,可改進傳統神經機器翻譯(NMT)模型單一通道編碼的缺點。該模型在中英翻譯上的 BLEU 值提升了超過 6 個百分點,在英法翻譯上用單層模型取得了可與深層模型媲美的效果。本文對該論文的主要內容做了介紹。

基於注意力的神經機器翻譯無疑成為 NMT 最有效的架構,在許多語言對上超越了傳統的統計機器翻譯(SMT)系統(Sen-nrich et al. 2017)。基於注意力的模型之所以能夠大大超越典型的編碼器-解碼器模型,在於它能夠通過一個相對簡單的匹配函式動態檢索相關聯的源語塊(類似 SMT 中的對齊)。換言之,基於注意力的模型受益於豐富的源語句表徵及其表示區域性結構的靈活性。

在典型的基於注意力的 NMT 系統中,使用雙向迴圈神經網路(biRNN) 對源語句進行編碼,利用 RNN 生成向量序列,粗略來說這些向量就是源語句單詞的上下文感知嵌入(context-aware embedding)。這種設計下,編碼器學習相對一致的句子組合。如今,編碼器中的 RNN 已經被一些先進的門控機制變體所替代,例如 LSTM 和 GRU。對翻譯來說,普遍希望解碼器採用極其符合自己語言架構的語句組合塊。

 

在此需求下,百度研究員提出了一種多通道編碼模型(MCE),採用不同層次組合的編碼元件。更具體而言,除了編碼 RNN 的隱態,MCE 為不帶組合的原始編碼採取了原始詞嵌入,並在 NTM 中以類似於帶有不同頻率的視覺通道的方式為更復雜的組合專門設計了外部儲存器。所有三個編碼策略在由引數控制的解碼過程中被適當混合,並能夠以端到端的方式被學習。更具體說,百度設計了一個可以自動調節不同編碼通道權重的門控機制。

在此論文中,作者們也調查了 MCE 在不同的翻譯任務上的表現。首先,在 NIST 中翻英任務上測試了該模型,相比於強大的 DL4MT 系統平均提升了 6.52 的 BLEU 得分。此外,在 WMT 2014 英翻法任務上,單個淺層模型獲得了 38.8 的 BLEU 得分,可媲美於頂級模型。

論文:Multi-channel Encoder for Neural Machine Translation 

百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

論文連結:https://arxiv.org/abs/1712.02109

摘要:基於注意力的編碼器-解碼器是非常有效的神經機器翻譯(NMT)架構,它通常依賴於迴圈神經網路(RNN)在解碼過程中構建由 attentive reader 呼叫的塊。儘管使用門控機制編碼 RNN,但這種編碼器的設計在源語句上產生了相對一致的組合。另一方面,我們常常希望解碼器能夠在不同層次上採取若干個源語句來匹配其自身語言結構:比如,我們也許想採取原始形式的實體名,同時採取一個習語(idiom)作為一個完美的組成單元。受此需求啟發,我們提出了多通道編碼器(Multi-channel Encoder/MCE),它增強了不同層面組合的編碼元件。更具體的是,除卻編碼 RNN 的隱藏狀態,1)MCE 為不帶組合的原始編碼採取了原始詞嵌入;2)神經圖靈機(NTM)專門設計的外部儲存器用於更加複雜的組合,而所有三種編碼策略在解碼時被恰當地混合。漢英翻譯的實證研究表明,我們的模型在強大的開源 NMT 系統 DL4MT1 上實現了 6.52 個 BLEU 百分點的提升。在 WMT14 英法語翻譯務中,我們的單一淺層系統達到了 38.8 的 BLEU 值,與當前最優的深度模型相當。

百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

圖 1:左圖是傳統的基於注意力的 NMT 模型,包含編碼器、解碼器和一個注意力機制。右邊是我們的全新 NMT 模型,帶有多個通道編碼器,包含來自雙向 RNN 的隱藏狀態、NTM 中的外部儲存和直接來自輸入序列的嵌入,並設計了一種門控註釋(gated annotation)自動學習不同解碼元件的權重。

百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

圖 2:編碼器中 NTM 的圖示,每一時間步上 RNN 在 NTM 中的讀和寫。

百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

表 1:不同系統在中翻英任務上的表現。相比於強大的開源系統 DL4MT,我們的模型有極大的改進。我們也列出了與近期開源的兩個工具包 T2T、ConvS2S 的對比。要知道,T2T 和 ConvS2S 都是多層的深度模型。

百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

表 2:英翻法任務:BLEU 得分。其中 RNN 表示基礎的迴圈神經網路模型,MCE 模型結合了從 RNN 的嵌入、隱藏狀態以及 NTM 中的外部儲存三種編碼元件。注意,我們的模型不執行 PosUNK,且使用小型詞彙量。

百度AAAI 2018論文提出新型NMT模型,效能堪比深層模型

圖 3:不同語句長度下的效能。

百度機器翻譯簡介:百度機器翻譯團隊繼 2015 年推出全球首個 NMT 線上翻譯服務之後,通過持續不斷的技術創新,在 NMT 模型研究和產品商業化應用上屢創佳績。在今年的百度世界大會上成功展示了自動同聲傳譯系統,語音識別和機器翻譯技術無縫銜接,翻譯結果流暢自然。同時,百度也在今年推出了一鍵式多語種 WIFI 翻譯機,產品自帶 80 多個國家的 4G 網路、語種自動識別,提供多語種高質量語音翻譯。

相關文章