對於機器翻譯來說,如果一門語言可用的文字資料越多,經過人工智慧模型訓練出來的翻譯效果就越好。但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在資料不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。

近日,谷歌在自己的部落格上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的使用者體驗。目前谷歌翻譯可支援108種語言,平均每天翻譯1500億個單詞。

谷歌翻譯最早亮相於2006年,在過去的13年間,翻譯水平有了重大飛躍。谷歌表示,其翻譯突破並不是由單一技術推動的,而是針對低資源語言、高資源語言、總體質量、推理速度等一系列技術組合的突破。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

  混合模型和資料探勘器

在這系列技術突破中,谷歌首先提到了混合模型和資料探勘器。

混合模型指的是由Transformer編碼器和遞迴神經網路(RNN)解碼器構成的模型。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表徵,解碼器將其生成為所需要的語言文字。谷歌的研究人員在2017年稱首次提出,翻譯質量的提高主要依靠編碼器。谷歌團隊稱這可能是因為RNN和Transformer都設計為處理有序資料序列,但Transformers並不需要按順序處理序列。換句話說,如果所討論的資料是自然語言,則Transformer無需在處理結尾之前先處理句子的開頭。

儘管如此,RNN解碼器在推理時間上仍然比Transformer中的解碼器要“快得多”。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以建立低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。

除了新穎的混合模型體系結構之外,谷歌還升級了爬蟲工具,爬蟲工具可以從數以百萬計的示例翻譯中收集編譯訓練資料。升級後,谷歌嵌入了14 種大語言對,而不是單純基於字典資料。也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索資料中的相關資料部分),而非檢索(實際檢索的相關資料總量)。產出效果方面,谷歌說這使得該資料探勘器提取到的句子數量平均增加了29%。

“嘈雜”的資料和遷移學習

谷歌翻譯效能提升的另一個技術突破來自更好地處理訓練資料中的“噪聲”。“噪聲”即嘈雜的資料,因含有大量無法正確理解或解釋的資訊資料,從而會損害語料資源豐富的語言翻譯。因此谷歌翻譯團隊部署了一個系統,該系統使用經過訓練的模型為翻譯示例分配分數,進而篩選出“純淨”的資料。實際上,這些模型一開始基於所有的資料進行訓練,然後逐漸基於更小、更純淨的資料子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

對於機器翻譯來說,傳統上依賴於源語言和目標語言中成對句子的語料統計。對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練資料,即語言中的每個句子都與其譯文相配對。在該機制中,訓練資料與合成的並行資料自動對齊,目標文字為自然語言,而源文字則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文字資料來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

此外,谷歌翻譯團隊還建了一個M4模型。M4模型由團隊在2019年提出,該模型對100多種語言的250億對句子進行訓練後,提高了30多種低資源語言的翻譯質量。這一模型也證明了在機器翻譯過程中可以使用遷移學習技術。這也意味著收集包括法語、德語和西班牙語,這些有數十億個並行示例的高資源語言,並進行訓練後,可以應用於翻譯諸如約魯巴語,信德語和夏威夷語,這些僅有數萬個示例的低資源語言。

 機器翻譯的未來

谷歌稱,自2010年以來,翻譯質量每年都在提高,但是機器翻譯絕不是翻譯問題的“終結者”。 谷歌承認,即使是增強後的模型也容易出錯,包括將一種語言的不同方言混合在一起,產生過多的直譯,以及在特定主題,非正式或口語上的表現不佳。

谷歌嘗試用不同的方法來解決上述的問題。公司曾釋出一項計劃旨在招募志願者,通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯效能。 今年2月份,谷歌翻譯與新興的機器學習技術相結合後就完成了進步,他們提供了僅有7500萬人使用的五種語言翻譯,例如Kinyarwanda(盧安達語),Odia(奧里亞語),Tatar(韃靼語),Turkmen(土庫曼語)和Uyghur(維吾爾語)。

追求真正通用翻譯的並不只有谷歌一家。在2018年8月,Facebook釋出了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯,在語言配對方面表現優異。最近,麻省理工學院電腦科學與人工智慧實驗室的研究人員提出了一種無監督模型,即可以從未經明確標記或分類的測試資料中學習的模型,該模型可以在兩種語言的文字之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

來自:澎湃新聞