語言的分歧是使人類大家庭破裂、分化成敵對陣營的唯一原因,或至少是主要原因。
——語言學家柴門霍夫
文字,是人類為了表達資訊而建立的一套符號系統。文字的使用,使人類知識更新的速度產生了翻天覆地的變化,人類通過文字來表達資訊、交換資訊,一代一代不斷積累、升級自己對世界的認知,從而進一步改造世界。其他動物可能比人類身體更強壯、塊頭更高大、嗅覺更敏銳、聽覺更靈敏,視覺更清晰,甚至部分動物也會製造和使用工具。但它們無一例外,都沒有創造和使用文字的能力,因此,在進化的漫漫千萬年中它們都無法積聚充分的認識世界的知識和改造世界的能力。
文字就像魔法一樣,使得柔弱的人類擁有了不斷迭代、增強的智慧。但是,使用不同的文字,宛如“雞同鴨講”,也造成了人類之間資訊甚至文明的隔閡,極大得阻礙了人類社會的和諧發展。
世界上一共有多少種人類語言?
專家們的估計是4000-8000種。德國出版的《語言學及語言交際工具問題手冊》提供了比較具體的數字:5561種,其中約2000種有書面文字。
在世界各國,文字的建立、演變、合併、消亡一直都在進行中。比如秦王朝統一六國後,進行的轟轟烈烈的“書同文、車同軌”運動。秦統一六國前,諸侯國各自為政,文字的形體極其紊亂。給政令的推行和文化交流造成了嚴重障礙。因此在統一六國後,以秦國文字為基礎,參照六國文字,創造出一種形體勻圓齊整、筆畫簡略的新文字,稱為“秦篆”,又稱“小篆”,作為官方規範文字,同時廢除其他異體字。下圖的七“馬”歸一,就是齊楚燕韓趙魏秦的文字統一的縮影。
秦始皇用行政力量搞“書同文”成功了,但另外一個憂國憂民的理想主義學者卻沒這麼好運。
這位是波蘭籍猶太人,語言學家柴門霍夫。在童年時代,為了人類和平,建立國際語的偉大理想就在他頭腦裡產生了。他曾說:“在比亞利斯托克,居民由四種不同的成分構成:俄羅斯人、波蘭人,日爾曼人和猶太人。每種人都講著各自的語言,相互關係不友好。在這樣的城裡,具有敏感天性的人更易感受到語言的隔閡帶來的極大不幸,語言的分歧是使人類大家庭破裂、分化成敵對陣營的唯一原因,或至少是主要原因。是大家把我培養成了一個理想主義者,是大家教我認識到所有的人都是親兄弟。然而,在大街上,在庭院裡,到處都讓我感到,真正含義的人是不存在的,只有俄羅斯人、波蘭人、日爾曼人,猶太人等等”。
最終,他耗盡畢生心血創造了世界語(Esperanto,希望之語),希望這門簡單易學的人造語言成為普世語言,用以促進交流並幫助世界各地的人民瞭解他國的文化,但很可惜,目前全球僅有兩百萬人在使用世界語。
進入20世紀60年代後,伴隨著通訊、計算等新一代科學技術的飛速發展,全球化貿易、科學、技術和文化交流日益增強,人類開始一步一步邁向資訊社會、智慧社會,不同國家或地區、不同族群和不同文化之間的聯絡越來越緊密。人類開始意識到,在全球化的今天,語言不通成為了人們交流的主要障礙之一,也成為了一個亟待解決的問題。既然逆天而創的世界語難以成功,因此我們需要尋求其他橋樑來跨越這個障礙。
人們首先想到的,就是最直接的辦法——人工翻譯。實際上,人類歷史上很早就出現了翻譯,公元前2000多年,吉爾伽美什的蘇美爾史詩就被部分翻譯成當時的西南亞語言;公元前196年的羅賽塔石碑(Rosetta Stone),上面同時使用了古埃及文、古希臘文以及當地通俗文字,來記載古埃及國王托勒密五世登基的詔書。公元629年(貞觀3年)開始,我國著名的大唐高僧玄奘和尚遠赴印度取經75部,總計1335卷,並從梵文譯為古漢語。
但是,依賴人的傳統翻譯很難快速翻譯洶湧澎湃的資料。幸運的是,機器翻譯的發展讓我們看到了曙光。但機器翻譯的發展絕非一帆風順,甚至可以說是跌宕起伏、一波三折。
機器翻譯的思想由來已久,約500年前,著名數學家笛卡爾提出了一種在統一的數字程式碼基礎上編寫字典的理念,不同語言中的相同思想共享一個符號,並與萊布尼茲等人試圖來實現。在該思想的影響下,維爾金斯在1668中提出的中介語。中介語的設計試圖將世界上所有的概念加以分類和編碼,有規律地列出並描述所有的概念和實體,並根據它們各自的特點和性質,給予不同的記號和名稱。
隨後的時間,又有不少先驅為這一目標探索奮鬥,包括法國、前蘇聯科學家們,但都無疾而終。
01
基於規則的機器翻譯
機器翻譯第一個被認可的實際研究專案出現於冷戰背景下。1949年,資訊理論研究者WarrenWeave正式提出了機器翻譯的概念。1954年,IBM與美國喬治敦大學合作公佈了世界上第一臺翻譯機IBM-701。它能夠將俄語翻譯為英文,雖然身軀巨大,事實上它裡面只內建了6條文法轉換規則,以及250個單字。但即使如此,這仍是技術的重大突破,那時人類開始覺得應該很快就能將語言的高牆打破。實驗以每秒列印兩行半的驚人速度,成功將約60句俄文自動翻譯成英文,被視為機器翻譯可行的開端。
隨後,美蘇兩個超級大國出於對軍事、政治和經濟目的,均投入巨資來進行機器翻譯研究——為此來獲取更多敵方的情報。同時,歐洲國家由於地緣政治和經濟的需要也對機器翻譯研究給予了相當大的重視。中國早在1956年就把機器翻譯研究列入了全國科學工作發展規劃。1957年,中國科學院語言研究所與計算技術研究所合作開展了俄漢機器翻譯試驗,翻譯了9種不同型別的句子。
當時,人們對機器翻譯的高度期待和樂觀主義情緒高漲,但是低估了問題的難度!尤其是自然語言翻譯本身的複雜性及當時計算機軟硬體系統的侷限性。不久,人們失望的看到,各家機器翻譯的效果都與期望相差甚遠。泡沫很快要被刺破了。
1964年,美國科學院成立了語言自動處理諮詢委員會。兩年後,在委員會提出的報告中認為機器翻譯代價昂貴,準確率低,速度慢於人工翻譯,未來也不會達到人工翻譯質量。結論就是給機器翻譯的研究直接判了死刑,認為完全不值得繼續投入。在接下來的十來年中,機器翻譯研究從迅速跌入谷底,研究幾乎完全停滯。
進入20世紀70年代,隨著科學技術的發展和各國科技情報交流的日趨頻繁,國與國之間的語言障礙顯得更為嚴重,傳統的人工作業方式已經遠遠不能滿足需求,人們迫切地需要計算機來從事翻譯工作。
這時候,現代語言之父喬姆斯基(Chomsky)的“轉換生成語法”產生了深遠影響力,學者們意識到,要想實現好的翻譯效果,必須在理解語言的基礎上進行翻譯,從理解句法結構上下功夫。有了新思想信念的加持,再加上計算機軟硬體系統飛速地發展,基於語法規則的機器翻譯研究開始如火如荼地展開,相關技術、產品不斷湧現。
但很快,基於規則的機器翻譯就遇到了瓶頸。純靠人工編纂、維護的規則很難全面、準確覆蓋人類繁雜、凌亂、不斷演化的語言現實,而且可擴充性很差。譯文的準確率雖有進步,但依然達不到可用的預期。
自20世紀80年代開始,研究人員逐漸開始資料驅動的機器翻譯方法。1980年,Martin Kay提出了翻譯記憶方法,其基本思想在翻譯新句子時從已經翻譯好的老句子中找出相似部分來輔助新句翻譯。1984年,長尾真(MakotoNagao)提出基於例項的機器翻譯方法,它從例項庫中提取翻譯知識,通過增、刪、改、替換等操作完成翻譯。這些方法,在實踐中都得以廣泛應用。
02
統計機器翻譯20世紀80年代末起,基於資料和演算法的統計學習方法在理論和應用層面都取得了飛速進展。極端的一個例子是,首個將統計模型引入語音識別和語言處理的現代語音識別和自然語言處理研究的先驅Frederick Jelinek曾有過如此令人驚訝的言論:
每當我開除一個語言學家,語音識別系統就更準確了。
於是,在基於規則的機器翻譯受挫後,學者們開始全面轉型統計機器翻譯。標誌性事件是,1990年在芬蘭赫爾辛基召開的第13屆國際計算語言學大會,會上提出了處理大規模真實文字的戰略任務,開啟了語言計算的一個新的歷史階段——基於大規模語料庫的統計自然語言處理。
基於詞的統計機器翻譯模型處理的單元較小,後來逐漸發展起來的基於短語的方法成為統計機器翻譯的主流工作。研究人員開始基於大規模的語料對照資料,構建模型,訓練優化目標,自動化測評效果。這首次使得機器翻譯趨於流程化,從而上了可以快速迭代的快車道。
具體地,Och在2003提出的基於最大熵的對數—線性模型和引數最小錯誤訓練方法促使統計機器翻譯方法能夠將多種不同的特徵函式融合進機器翻譯模型中,並且自動學習它們各自的特徵權重,使得翻譯效能顯著超越了其他傳統機器翻譯方法。此外,自動評測指標 BLEU的提出不僅避免了人工評價成本昂貴的弊端,而且可以直接成為模型優化的目標,極大地提高了統計機器翻譯系統模型訓練、迭代、更新的效率。
統計機器翻譯方法的特點是幾乎完全依賴對大規模雙語語料庫的自動學習、自動構造機器翻譯系統。這種方法具有廣泛的一般性,與具體語種無關,與語法細節無關,與語言的內容無關,自此也不再需要人工規則集。一些研究機構不斷先後開源機器翻譯系統,以促進學術研究,其中比較著名的是約翰霍普金斯大學教授,Philipp Koehn團隊開發的Moses系統(http://www.statmt.org/moses/),常被作為學術論文中的對比基線。
21世紀初期開始,藉助於網際網路的發展,統計機器翻譯系統逐漸從2B、2G走向全世界個體的2C。以谷歌、微軟為代表的科研機構和企業均相繼成立機器翻譯團隊並相繼釋出了能夠支援世界上幾十種、幾百種常用語言的網際網路機器翻譯系統,迅速普及了機器翻譯的應用場景,極大地提高了人們使用機器翻譯的便利性。
03
神經網路機器翻譯隨著深度學習的迅猛發展,以及在語音、影像識別領域取得巨大突破,越來越多的自然語言處理問題也開始採用深度學習技術。研究人員逐漸放棄了統計機器翻譯框架中各子模型獨立計算的模式,提出了端到端(end-to-end,句子到句子)的神經機器翻譯模型架構。該架構由編碼器和解碼器兩部分組成,其中編碼器負責將源語言句子編碼成一個實數值向量,然後解碼器基於該向量解碼出目標譯文。
機器翻譯本質上是序列到序列(sequenceto sequence)問題的一個特例,即源語言句子(源語言的詞序列)到目標語言句子(目標語言的詞序列)。Sutskever等在2014提出了基於迴圈神經網路(recurrent neuralnetwork, RNN)的編碼器-解碼器(encoder-decoder)架構,並用於序列到序列學習。他們使用一個迴圈神經網路將源語句中的詞序列編碼為一個高維向量,然後通過一個解碼器迴圈神經網路將此向量解碼為目標語句的詞序列。他們將此模型應用於翻譯任務,並在英法翻譯任務上達到了媲美傳統的統計機器翻譯的效果,由此掀起了神經網路機器翻譯的熱潮。
2016年9月30日,Google釋出了新版神經機器翻譯(GNMT)系統,通過對維基百科和新聞網站選取的語句的測試,相比基於短語的統計翻譯能減少55%到85%的翻譯錯誤,在中英文翻譯人工測評的準確率高達80%左右。面對機器的強悍,翻譯從業人員們首次感受到了寒意,有翻譯員甚至這樣形容:
作為一名翻譯員,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
但機器翻譯進化的腳步並沒有停下來,隨著注意力機制被引入,機器翻譯的效果又有了飛速的提升。2017年以來,機器翻譯人員拋棄了傳統的RNN、CNN結構,採用完全基於注意力機制的Transformer模型,在效果、訓練速度、效能等多個維度上都碾壓之前所有模型。
但是,神經網路機器翻譯依舊存在不少待解決的重要問題,包括:
海量資料依賴:效果優異的翻譯模型的訓練普遍需要於上千萬條平行語料,而現實中除了少量世界級大語種之間,很難有如此海量的語料。如何讓模型學習少量的資料或者單邊語料就能達到較好的效果是當前最亟待解決的問題。
易受噪音影響:當前模型非常容易受噪音的影響,我們在實際訓練中發現,引入20%左右的低質量語料(比如意譯味較濃的字幕翻譯),就能使翻譯效果迅速下降。如果訓練模型能更穩健,那麼可用的語料數量將大大提高。
專業領域翻譯:在細分的專業領域內(比如醫療),專業語料本身的量會非常稀少,同時存在大量的專業詞彙沒有出現在訓練語料中。如果能利用大量的普通語料和少量的專業語料來建立準確的專業領域機器翻譯系統,那麼機器翻譯的應用場景將不僅僅侷限於日常新聞領域,真正突破不同語言國家之間的文化、科技藩籬。
本篇主要講述了機器翻譯的歷史發展,在下篇中,我們將分享機器翻譯系統的理論演算法和技術實踐,敬請期待。
參考文獻:
李沐、劉樹傑、張鼕鼕、周明,機器翻譯,高等教育出版社·人工智慧叢書,2018。 趙申劍,字元級神經網路機器翻譯,上海交通大學碩士畢業論文,2018年。 Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003. Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics. Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017.