神經機器翻譯實戰

机器之心發表於2018-12-22

原文網址 : http://www.jiqizhixin.com/articles/2018-05-03-1111

1.0 引言

機器翻譯（MT）是藉機器之力「自動地將一種自然語言文字（源語言）翻譯成另一種自然語言文字（目標語言）」[1]。使用機器做翻譯的思想最早由 Warren Weaver 於 1949 年提出。在很長一段時間裡（20 世紀 50 年代到 80 年代），機器翻譯都是通過研究源語言與目標語言的語言學資訊來做的，也就是基於詞典和語法生成翻譯，這被稱為基於規則的機器翻譯（RBMT）。隨著統計學的發展，研究者開始將統計模型應用於機器翻譯，這種方法是基於對雙語文字語料庫的分析來生成翻譯結果。這種方法被稱為統計機器翻譯（SMT），它的表現比 RBMT 更好，並且在 1980 年代到 2000 年代之間主宰了這一領域。1997 年，Ramon Neco 和 Mikel Forcada 提出了使用「編碼器-解碼器」結構做機器翻譯的想法 [2]。幾年之後的 2003 年，蒙特利爾大學 Yoshua Bengio 領導的一個研究團隊開發了一個基於神經網路的語言模型 [3]，改善了傳統 SMT 模型的資料稀疏性問題。他們的研究工作為未來神經網路在機器翻譯上的應用奠定了基礎。

1.1 神經機器翻譯的誕生

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一種用於機器翻譯的新型端到端編碼器-解碼器結構 [4]。該模型可以使用卷積神經網路（CNN）將給定的一段源文字編碼成一個連續的向量，然後再使用迴圈神經網路（RNN）作為解碼器將該狀態向量轉換成目標語言。他們的研究成果可以說是神經機器翻譯（NMT）的誕生；神經機器翻譯是一種使用深度學習神經網路獲取自然語言之間的對映關係的方法。NMT 的非線性對映不同於線性的 SMT 模型，而且是使用了連線編碼器和解碼器的狀態向量來描述語義的等價關係。此外，RNN 應該還能得到無限長句子背後的資訊，從而解決所謂的「長距離重新排序（long distance reordering）」問題 [29]。但是，「梯度爆炸/消失」問題 [28] 讓 RNN 實際上難以處理長距依存（long distance dependency）；因此，NMT 模型一開始的表現並不好。

1.2 用於長距問題的記憶

一年後的 2014 年，Sutskever et al. 和 Cho et al. 開發了一種名叫序列到序列（seq2seq）學習的方法，可以將 RNN 既用於編碼器也用於解碼器 [5][6]，並且還為 NMT 引入了長短時記憶（LSTM，是一種 RNN）。在門機制（gate mechanism）的幫助下（允許在 LSTM 中刪除和更新明確的記憶），「梯度爆炸/消失」問題得到了控制，從而讓模型可以遠遠更好地獲取句子中的「長距依存」。

LSTM 的引入解決了「長距離重新排序」問題，同時將 NMT 的主要難題變成了「固定長度向量（fixed-length vector）」問題：如圖 1 所示，不管源句子的長度幾何，這個神經網路都需要將其壓縮成一個固定長度的向量，這會在解碼過程中帶來更大的複雜性和不確定性，尤其是當源句子很長時 [6]。

神經機器翻譯實戰圖 1：沒有「注意力」機制的原始神經機器翻譯機制 [5]

1.3 注意、注意、注意

自 2014 年 Yoshua Bengio 的團隊為 NMT 引入了「注意力（attention）」機制 [7] 之後，「固定長度向量」問題也開始得到解決。注意力機制最早是由 DeepMind 為影象分類提出的 [23]，這讓「神經網路在執行預測任務時可以更多關注輸入中的相關部分，更少關注不相關的部分」[24]。當解碼器生成一個用於構成目標句子的詞時，源句子中僅有少部分是相關的；因此，可以應用一個基於內容的注意力機制來根據源句子動態地生成一個（加權的）語境向量（context vector）（如圖 2 所示，紫色線的透明度表示權重大小）。然後網路會根據這個語境向量而不是某個固定長度的向量來預測詞。自那以後，NMT 的表現得到了顯著提升，「注意力編碼器-解碼器網路」已經成為了 NMT 領域當前最佳的模型。

微軟提出新型通用神經機器翻譯方法，挑戰低資源語言翻譯問題
2018-05-28
微軟
入門Python神經機器翻譯，這是一篇非常精簡的實戰指南
2019-03-03
Python
今晚直播：非自迴歸神經機器翻譯 | PhD Talk #24
2018-03-09
直播實錄 | 非自迴歸神經機器翻譯 + ICLR 2018 論文解讀
2018-03-12
ICLR
多對多多語言神經機器翻譯的對比學習
2022-01-30
從規則到神經網路：機器翻譯技術的演化之路
2023-12-26
神經網路
NLP教程(6) - 神經機器翻譯、seq2seq與注意力機制
2022-05-10
Datawhale AI夏令營-機器翻譯挑戰賽
2024-07-17
AI
如何用PaddlePaddle實現機器翻譯？
2019-05-28
谷歌大腦神經機器翻譯大規模實驗：尋找最優的超引數組合
2018-08-09
谷歌
低資源神經機器翻譯MetaNMT ：來自MAML與NLP的溫柔救贖
2019-03-01
香港大學顧佳濤：非自迴歸神經機器翻譯 | 直播預告
2018-03-05
機器閱讀理解 / 知識庫 / 深度學習 / 對話系統 / 神經機器翻譯 | 本週值得讀
2018-03-21
深度學習
百度機器翻譯SDK實驗
2024-11-12
用強化學習做神經機器翻譯：中山大學&MSRA填補多項空白
2018-09-01
強化學習
ACL 2018 | TA-NMT：利用大語種語料，提升小語種神經機器翻譯能力
2018-07-18
實驗一：百度機器翻譯SDK實驗
2024-12-06
NLP機器翻譯全景：從基本原理到技術實戰全解析
2023-11-09
程式翻譯新突破：UC伯克利提出樹到樹的程式翻譯神經網路
2018-11-06
神經網路
論機器翻譯之淺薄
2018-04-07
第四期知識與認知圖譜：神經機器翻譯也應該嵌入「知識」
2019-06-03
想要上手機器翻譯？飛槳教你用Transformer 一戰到底
2019-09-26
ORM
化繁為簡的翻譯機——直譯器模式
2019-01-28
模式
微信翻譯大型翻車現場？機器翻譯到底有哪些不確定性
2019-03-05
AI一分鐘 | 騰訊將成立機器人實驗室；機器翻譯重大突破：中英翻譯已達人類水平
2018-03-15
AI機器人
《Node.js 開發實戰》翻譯歷程
2018-12-12
Node.js
微軟機器翻譯系統：中-英翻譯水平可“與人類媲美”
2018-03-15
微軟
面向機器智慧的TensorFlow實戰6：迴圈神經網路與自然語言處理
2018-05-26
神經網路自然語言處理
普適注意力：用於機器翻譯的2D卷積神經網路，顯著優於編碼器-解碼器架構
2018-08-29
卷積神經網路架構
監管機器翻譯質量？且看阿里如何搭建翻譯質量評估模型
2018-08-02
阿里模型
C# 10分鐘完成百度翻譯（機器翻譯）——入門篇
2022-01-10
C#
Go 語言實現解析器翻譯
2018-05-13
Go
機器學習整理（神經網路）
2022-04-10
機器學習神經網路
Attention機制的精要總結，附：中英文機器翻譯的實現！
2019-08-31
文件翻譯器怎麼用？如何翻譯Word文件？
2019-08-15
aardio爬蟲) 實戰篇：逆向有道翻譯web介面
2024-05-06
爬蟲Web
10分鐘教你用Python實現微信翻譯機器人
2019-08-20
Python機器人
《Nature》子刊：不僅是語言，機器翻譯還能把腦波「翻譯」成文字
2020-04-27

神經機器翻譯實戰

1.0 引言

1.1 神經機器翻譯的誕生

1.2 用於長距問題的記憶

1.3 注意、注意、注意

相關文章