機器翻譯之夢
今天,當我們很自然的拿出手機,選擇一個谷歌、百度或微軟的翻譯 app ,輕而易舉的完成文字翻譯、拍照翻譯和實時語音翻譯時,我們可能不會意識到由於深度學習的出現和資料量的積累,研究數十年的機器翻譯問題已經變得可用並走入了我們的生活,給我們帶來了極大便利。
1954年,電腦科學家第一次公開發布了一款可以翻譯人類語言的機器。後來這被稱為喬治城-IBM實驗:一個能將句子從俄語翻譯成英語的「電子大腦」(electronic brain)。 當時,科學家相信,一旦通用翻譯器被開發出來,不僅可以讓美國在國家安全上領先蘇聯,還能消除語言障礙,從而促進世界和平。 他們還相信,這種進步馬上就要實現了:喬治城語言學專家Leon Dostert與IBM創始人Thomas Watson共同發起了這個專案。他們認為,5年後(甚至不到5年的時間內),人們就可以用電子翻譯器在若干種語言之間進行翻譯。結果,事實證明,這個進步非常緩慢。60多年後,實時的通用翻譯器(如《星球大戰》中的C-3PO和《銀河系漫遊指南》中的巴別魚(Babel Fish))依然只是科幻作品的產物。
但今天,當我們站在此處回顧歷史,我們才發現我們真的已經將科幻變成了現實。
變革性的神經機器翻譯
去年,谷歌提出了GNMT,神經機器翻譯(NMT: Neural Machine Translation)是一種用於自動翻譯的端到端的學習方法,該方法有望克服傳統的基於短語的翻譯系統的缺點。但 NMT 系統的訓練和翻譯推理的計算成本非常高,同時也難以應對罕見詞,這些問題阻礙了 NMT 在實際部署和服務中的應用,因為在實際應用中,準確度和速度都很關鍵。而谷歌的神經機器翻譯提出了帶有 8 個編碼器和 8 個解碼器的深度 LSTM 網路組成的模型,使用了注意力和殘差連線。為了提升並行性從而降低訓練時間,注意機制將解碼器的底層連線到了編碼器的頂層。在推理計算過程中使用了低精度運算來加速翻譯速度。為改善對罕見詞的處理,谷歌將詞分成常見子詞單元(詞的元件)的一個有限集合,該集合既是輸入也是輸出。這種方法能提供「字元」-delimited models 的靈活性和「詞」-delimited models 的有效性之間的平衡、能自然地處理罕見詞的翻譯、並能最終提升系統的整體準確度。谷歌的波束搜尋技術使用了一個長度規範化過程,並使用了一個覆蓋度懲罰,其可以激勵很可能能覆蓋源句子中所有的詞的輸出句子的生成。在 WMT' 14 英語-法語和英語-德語基準上,GNMT 實現了可與當前最佳結果媲美的結果。透過在一個單獨的簡單句子集合的人類對比評估中,它相比於谷歌已經投入生產的基於短語的系統的翻譯誤差平均降低了 60%。
Google Translate 產品負責人 Barak Turovsky 在谷歌舊金山的一次新聞釋出會上說:「這一次的進步超過了過去十年積累的總和。」
過去幾年,機器智慧的快速發展已經給我們的語音識別和影像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。而隨著眾多公司對神經機器翻譯的研究,我們已經階段性的解決了機器翻譯問題。
神經網路機器翻譯技術成為人工智慧翻譯主流。該技術透過「端到端」的方法將翻譯平行語料進行對映,以「編碼器—注意力機制—解碼器」的結構來解決翻譯問題。 神經機器翻譯有兩個關鍵技術,一個是 gating,另外還有一個是 attention,這兩個特別適合處理語言中長距離調序,生成的譯文要比傳統的方式生成的譯文流利很多。
我們好像找到了開啟人類語言寶庫的鑰匙,眾多公司和機構開始了對神經機器翻譯的研究。
哈佛大學自然語言處理研究組(Harvard NLP)宣佈開源了其研發的神經機器翻譯系統 OpenNMT,該系統已經達到生產可用的水平;來自愛丁堡大學、紐約大學等高校的研究人員共同釋出的一篇論文提出了新的神經機器翻譯工具箱 Nematus,它在 WMT 和 IWSLT 的機器翻譯任務上取得了頂級表現,也已經被用來訓練產品環境下的系統;在去年的一篇論文《Learning to Translate in Real-time with Neural Machine Translation》中,研究人員說他們「第一次」能夠證明某些演算法可以「在同步翻譯上表現得非常好,比以前的基於分割的演算法好得多。」從而讓實時翻譯變得更加流暢;谷歌在提出 GNMT 之後,又提出了一種使用單個神經機器翻譯(NMT)模型在多種語言之間進行翻譯的簡潔優雅的解決方案,這不需要對基礎系統的模型架構進行修改,而是在輸入句子的一開始引入了一個人工 token 來確定所需的目標語言。
國內科技公司在這方面的進展也同樣令人興奮,2016年,12 月 21 日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網路以及自然語言處理技術,百度早在一年多以前就率先發布了世界上首個網際網路 NMT 系統,引領機器翻譯進入神經網路翻譯時代。
去年百度曾在 ACL 會議上發表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術解決多語言翻譯及語料稀疏的問題。該論文得到業內研究人員的極大關注,並被 ACL2016 的 NMT Tutorial 列為研究方向。
「我們從 2014 年開始便嘗試做基於神經網路的翻譯系統,2015 年釋出線上翻譯系統的時,BLEU(Bilingual Evaluation Understudy)指標已經比傳統的 SMT(統計機器翻譯)系統高六、七個點。我們同時還開發了離線版本,可以在手機上使用。」吳華在接受機器之心採訪時表示,「當時學術界對於深度學習的翻譯方法到底是否實用還有一番爭論,我們很早就發現基於 Attention 機制的 Seq2Seq 深度學習模型是有用的,經過多次實驗驗證,在很多集合上超過了傳統方法。同時,針對 NMT 本身存在的一些問題,進行了技術攻關,短短 3 個月的時間便完成了開發和上線。當大家還在討論 Attention 機制時,我們已經結合了原有的統計方法上線。可以說,百度翻譯是全球首個網際網路神經網路翻譯系統。」
百度從 2015年5月釋出了基於深度學習的線上翻譯系統,在翻譯模型、解碼演算法、大規模語料訓練等方面取得突破性進展,融合統計與深度學習的方法,透過最佳化的搜尋演算法,利用優先佇列及候選翻譯表,突破了翻譯速度限制;使用從網際網路獲取的大資料語料訓練,已知的最大規模的訓練深度神經網路翻譯系統的語料,突破了訓練語料規模限制;這種翻譯方法的最大優勢在於譯文流暢,更加符合語法規範,容易理解。相關論文發表於領域權威會議ACL,AAAI,IJCAI,MTSUMMIT等。
機器翻譯在研究方面取得突破性進展,而如何將其大規模產品化,尤其是在手機這個終端上應用成為眾多科技公司都面臨的問題,而眾多公司也紛紛開始了嘗試。在去年的自然語言處理頂會ACL2016上,有個關於NMT的Tutorials 就提到,未來NMT的一個重要研究方向是手機端的NMT翻譯系統,需要克服模型大小、速度等多個重要問題。
百度在2015年6月在移動端釋出了基於深度學習的離線翻譯系統,促進了技術的落地。百度採用模型壓縮技術,將模型規模壓縮70倍以上,手機端可儲存,同時採用動態載入、最佳化模型解碼等技術,提高解碼速度,使其在手機端流暢執行。
神經機器翻譯的產品化及開放化
這次機器翻譯技術的突破與以往最大的不同就是其變得可用,去年 11 月,谷歌宣佈將神經機器翻譯整合到了其網頁版和移動版的翻譯應用之中,這涉及總共八種語言的相互翻譯中,這些語言的母語總人口占到了世界總人口的三分之一,覆蓋了谷歌翻譯 35% 以上的請求。但谷歌的目標是將神經機器翻譯擴充套件到所有 103 種語言。近期,谷歌的谷歌翻譯 App 也正式向國內市場開放。
百度也結合OCR技術和語音識別技術,釋出了具有豐富實用功能的翻譯 APP ,可以實時的透過攝像頭的取景框來翻譯外文景點指示牌、選單、說明書和實物等。結合語音技術的會話翻譯,可以幫助實現不同語種的無障礙交流。
機器翻譯技術的突破不僅為我們帶來了生活的便利和效率的提升,還產生了巨大的社會效益。據多篇新聞報導,警察利用百度翻譯救助迷路的俄羅斯友人,公交車售票員利用百度翻譯將丟失的錢包送到了巴基斯坦小夥手中,交警利用百度翻譯與外國友人交流處理交通問題。
而如果要將這些機器翻譯技術的效率和效應發揮到最大化,就需要更加開放。而這也是科技巨頭們努力的方向。
去年11月,谷歌宣佈了提供機器學習 API 的公共雲服務 Google Cloud Platform,「能讓任何人都輕鬆地使用我們的機器學習技術」。今天,Google Cloud Platform 也使神經機器翻譯背後的系統向谷歌的企業使用者開放——谷歌提供了 Cloud Translation。微軟和IBM也分別擁有自己的機器翻譯開放平臺Microsoft Cognitive Service - Translator 和 IBM Watson Language Translator。
百度翻譯也提供了開放雲介面服務,為大量中小企業提供翻譯平臺服務,降低了創業創新門檻。目前,有超過1萬個第三方應用接入百度翻譯,例如華為將翻譯服務整合到其Ascend Mate7手機的攝像頭翻譯應用中,帶有翻譯功能的手機被銷往法國、德國等30多個國家和地區;B2B跨境電子商務平臺「敦煌網」使用「百度翻譯」進行跨境貿易,促進了對外貿易的發展。百度翻譯API為企業每年節省的人工翻譯成本摺合人民幣高達2億元。同時,百度翻譯從2011年6月開始向網際網路使用者提供免費翻譯服務,日均響應上億次翻譯請求,目前百度翻譯已經支援全球28種熱門語言互譯。
這些都加速了目前最先進的機器翻譯技術的落地,以及為更廣泛的人所用,來改變更多的行業。
據維基百科介紹,人類目前大概有 6000 多種語言。自人類在未建成的「巴別塔」下不歡而散以來,實現全人類之間的順暢交流一直是我們的夢想。基於目前的人工智慧技術發展,在很長一段時間內,雖然機器翻譯還完全取代不了人類,但基於網際網路大資料和先進機器翻譯技術的結合已經突破了原來編輯規則的侷限,並在多個場景下解決了使用者的具體需求。目前的機器翻譯讓我們看到了真正實現「巴別塔之夢」的希望。這也是我們機器翻譯讓使用者持續興奮、讓技術公司和研究人員保持動力的最大原因。