©NLP論文解讀 原創•作者 | FLIPPED
研究方向 | 機器翻譯
1、導讀
機器翻譯是關於如何使用計算機將一種語言翻譯成另一種語言的研究。
在方法論上,機器翻譯的方法主要分為兩類:基於規則的方法和基於語料庫的方法。基於規則的機器翻譯 (RBMT) 方法使用雙語詞典和手動編寫的規則將源語言文字翻譯成目標語言文字,然而手動編寫規則是十分繁瑣且難以維護的。
隨著深度學習技術的發展,基於語料庫方法之一的神經機器翻譯(NMT)逐漸取代了早期基於規則的機器翻譯方法,眾多模型包括非自迴歸模型、無監督 NMT 模型以及 NMT 上的預訓練模型(基於bert)等不斷湧現。
尤其隨著sequence to sequence 的翻譯架構的提出和transformer模型的成熟與應用,神經機器翻譯方法的翻譯質量和效率得到了巨大的提升。本文將針對神經機器翻譯目前發展的熱點領域,分享最新的研究進展。
圖1.基於注意力機制的神經網路翻譯
2、低資源條件下的機器翻譯
在現實世界中,部分小語種的機器翻譯問題面臨著極大的挑戰。由於缺乏大量的平行語料,模型很難有效的學習到對應語言之間的對映關係。在這種情況下,採用迭代的back translation[1]和 self-training來擴充訓練資料是一種行之有效的方法。
Back-translation通常訓練一個從目標語言翻譯成源語言的神經網路,單獨利用目標語言的語料來得到源語言對應的文字,把這樣得到的pair同時加到已有平行語料中一起訓練。
Self-training則首先利用平行語料來訓練一個正向的神經網路,然後將大量無標註的源語言資料翻譯至目標語言,從而得到帶噪的平行語料。將兩者生成的語料混合重新訓練一個更加準確且魯棒的模型,進而將上述的過程迭代重複多次即可得到大量的合成資料。
在實際應用中,往往還需要結合質量評估系統(quality estimation system)進一步對合成資料進行清洗過濾,然而對於很多低資源的語言來說,這種評估系統的建立十分困難。
為了解決這一問題,有學者提出了一種資料挑選方法[2]來替代原始的評估系統。該方法根據測試集的領域匹配程度,可對原始的單一語料進行相關性排序,在每一輪迭代中選擇最匹配的句子去生成合成資料。採用這種資料挑選的方法,不僅提升了資料合成的效率,並且取得了相似甚至超過原始質量評估系統的翻譯結果。
圖2.用於self-training的資料選擇方法
3、同聲傳譯
Speech-to-text 的語音翻譯問題相比於傳統text-to-text的機器翻譯問題更加具有挑戰。首先source端語音到target文字之間存在著跨模態的語言對映,同時兩種語言的不同進一步增加了學習這種對映之間的難度。
因此對於同聲傳譯問題,在中高延遲條件下的模型主要基於級聯絡統,而級聯絡統的整個翻譯過程涉及到兩步預測,一方面增加了模型預測的時間進而造成較高的延遲,另一方面第一步預測結果的準確性將直接影響第二步文字翻譯的質量,造成了錯誤的傳播和疊加。
目前基於端到端的語音翻譯模型受到了越來越多的關注,隨著emformer[3]等模型的提出,長距離依賴的上下文資訊可以被壓縮到一個增強的儲存器中(memory bank),為低延遲條件下的流式解碼提供了方便。
目前同傳大都採用wait-k[4]的策略進行解碼,仍然存在由於重複編碼導致的訓練慢,以及缺少對未來資訊建模的問題。此外如何通過改進wait-k使得模型智慧決定解碼時機也是目前解決端到端語音翻譯面臨的巨大挑戰。
圖3.級聯絡統示意圖
圖4 Wait-k解碼流程
4、one-to-many 多語言翻譯
隨著機器翻譯的不斷髮展,多語言翻譯逐漸受到了更多的關注,其中將一種源語言同時翻譯成多種不同的目標語言是多語言翻譯最常見的場景之一。相對於one-to-one的翻譯模式,one-to-many的需求更貼合實際情況且更具商用價值。
解決這種多工學習的通用框架如圖5所示,首先通過大量的源語言資料訓練一個共享的encoder, 然後根據不同的目標語言訓練各自獨立的decoder。然而這類方法在解碼過程中不能充分利用翻譯模型資訊,如語內和語間的未來資訊,因此可能會產生一些unbalanced output。
此外,儘管採用了多個decoder的模型構造,但在實際解碼過程中,同一時刻只能針對一對語言的decoder進行解碼,效率較低。在最新的研究中,有學者提出了同步互動式多語言神經機器翻譯的新方法。
通過在解碼的過程中有效利用到所有待翻目標語言的當前和未來的資訊,它不僅能夠同時產生多個目標語言翻譯結果,並且相比於目前其他雙語模型取得了更優的翻譯結果。
圖5. one-to-many多工學習的通用框架
圖6. 利用不同解碼資訊的多語言互動式解碼框架[5]
5、模型的壓縮與加速
為了提升機器翻譯的效能,以transformer為主的翻譯模型往往需要更深的網路以及更大的詞表,然而這樣龐大的計算模型不僅極大的增加了訓練的代價和時間,也給模型的終端部署造成了巨大的困難。Partial Vector Quantization (P-VQ)[6]為輕量化和加速計算提供了一種新的解決方法。
首先將原始的詞嵌入矩陣拆分為兩個低維的矩陣,一個可共享一個獨佔。通過部分向量量化的方法將共享的矩陣進行壓縮,保持獨佔的矩陣不變以保持每個單詞的唯一性,通過這種操作可極大減小詞嵌入矩陣所佔的儲存空間。
同時在softmax層計算每個單詞的概率分佈時,將大多數的乘法操作轉換為查詢操作,從而顯著加快計算速度。GPKD[7]方法從壓縮模型的角度提出了新的解決方法。傳統的深層transformer模型不僅計算昂貴而且極大消耗資源,該方法提出了一種新的基於group-permutation的知識蒸餾方法來將深層模型壓縮為淺層模型。
為了進一步增強效能,文章還提出了一種Skipping Sub-Layer的正則化方法,通過隨機刪除某一子層進而增強擾動訓練,兩種方法均作用於encoder端。在多個基準(benchmark)上的實驗結果驗證了兩種方法有效性。採用GPKD壓縮模型比深度模型淺8倍,而BLEU幾乎沒有損失,這也為工業化的生產使用提供了可能。
圖7 GPKD方法
本文簡要介紹了神經機器翻譯部分領域的研究進展,可以看出儘管MT已經取得了很大的進步,但仍然有不少的問題需要解決。首先,MT需要更好的評價指標來評估真正重要的東西,儘管BLEU作為常用的評價指標已經能夠對翻譯的完整與準確性做出客觀的評價,但在很多應用場景中可能沒有標準的譯文,或是在同傳問題上還有必要考慮延遲的獎懲。
其次,MT 的魯棒性需要進一步提高。有時源語言的細微變化(例如單詞或標點符號)可能會導致翻譯發生巨大變化。但是人類在翻譯時具有很強的容錯能力,可以靈活地處理各種不規範的語言現象和錯誤。
最後,NMT 方法在資源匱乏的語言對和領域中面臨著嚴重的資料稀疏問題。目前的MT系統往往使用數千萬甚至數億句句對資料進行訓練,否則翻譯質量會很差,然而人類卻能從少數樣本中學習。
儘管已經提出了許多資料增強方法、多工學習方法和預訓練方法來緩解這個問題,但如何提高低資源語言對的翻譯質量仍然是一個懸而未決的問題。綜上所述,實現高質量的MT還有很長的路要走,未來有必要開發能夠結合符號規則、知識和神經網路的新方法,以進一步提高翻譯質量。
參考文獻:
[1] Liao B, Khadivi S, Hewavitharana S. Back-translation for Large-Scale Multilingual Machine Translation[J]. arXiv preprint arXiv:2109.08712, 2021.
[2] Abdulmumin I, Galadanci B S, Ahmad I S, et al. Data Selection as an alternative to Quality Estimation in Self-Learning for Low Resource Neural Machine Translation[J].
[3] Shi Y, Wang Y, Wu C, et al. Emformer: Efficient memory transformer based acoustic model for low latency streaming speech recognition[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6783-6787.
[4] Elbayad M, Besacier L, Verbeek J. Efficient wait-k models for simultaneous machine translation[J]. arXiv preprint arXiv:2005.08595, 2020.
[5] He H, Wang Q, Yu Z, et al. Synchronous Interactive Decoding for Multilingual Neural Machine Translation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(14): 12981-12988.
[6] Zhang F, Tu M, Yan J. Accelerating Neural Machine Translation with Partial Word Embedding Compression[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(16): 14356-14364.
[7] Li B, Wang Z, Liu H, et al. Learning light-weight translation models from deep transformer[J]. arXiv preprint arXiv:2012.13866, 2020.