論機器翻譯之淺薄

AI科技大本營發表於2018-04-07

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


翻譯 | shawn

編輯 | 波波、費棋


【AI科技大本營導讀】儘管機器翻譯明顯玩不轉備受期待的長篇內容,但我們得承認,在快速獲知單詞含義層面,它確實為人們提供了一定便利。可奇怪的是,無論媒體報導還是行業中都似乎營造了一種機器翻譯馬上要取代人類譯者的氣氛,這給了人們一種快要成了的錯覺。


有人要揭開盲目樂觀的面紗,因《哥德爾、埃舍爾、巴赫》一書而獲得普利策獎的美國學者侯世達是其中之一。他以自己親身體驗 Google 翻譯的經歷指出,翻譯軟體目前是隻知其形,還不解其意。進一步說,機器翻譯要想替代人類,不應只是單詞解碼,更重要的是要擁有人類那樣對言語意義的理解力。要解決第二個問題,就需要讓機器複製人類智慧,但技術研究者卻迴避著這一難題。


以下內容由AI科技大本營翻譯:


週日,我朋友 Frank 帶了一位丹麥客人來參加我們每週舉辦的薩爾薩舞會。Frank 的母親是丹麥人,他小時候在丹麥生活過,能說一口流利的丹麥語。而Frank 的丹麥朋友也能講英語,按北歐人的標準,還是很流利的。然而,晚上閒聊時我卻意外發現,這一對好友卻習慣於藉助 Google 翻譯才能互通郵件:Frank 發郵件會先用英語寫好內容,然後用 Google 翻譯將其轉換成丹麥文;與之相對,他朋友發郵件則會用丹麥語寫好內容,然後用 Google 翻譯將丹麥文轉換成英文。


你說這事怪不怪?他們明明都能聽懂對方說的話,但為什麼偏偏要用 Google 翻譯,這不多此一舉嗎?


以我跟機器翻譯軟體打交道的經驗,它們的翻譯效果我一直持高度懷疑態度,但這兩人卻不以為然。事實上,很多很有頭腦的人都是翻譯軟體的擁躉,極少去苛責機器翻譯的淺薄,這讓我很是不解。


作為一個語言愛好者、一個富有激情的譯者以及一個認知科學家,我一生都折服於人類頭腦的精妙,數十年來一直致力於翻譯工作的機器化。這一課題首次令我產生興趣是在70年代中期,當時,我讀到了一封 1947 年的信,是機器翻譯的早期擁護者 Warren Weaver 寫給 Norbert Wiener 的。信中,Weaver 提出了一個相當有名的觀點——翻譯即解碼,他的原話是這樣的:


每當看到俄語文章時,我會這樣說,“這篇內容事實上就是用英文寫的,只不過有人用一些奇怪的符號對它進行了加密。接下來,我只需將其進行解碼即可。”


不過,數年之後,他又丟擲了一個截然不同的觀點:


“明眼人都清楚,機器成不了普希金,機器翻譯永遠都無法傳達出語言本身的優雅與格調。”


我發現,Weaver 後來的這個觀點更讓我感同身受,特別是在我投入整整一年時間將普希金的長篇詩體小說《葉普根尼-奧涅金》翻譯成了英文,其中的艱辛就是如何把讀出來的俄語內容徹底地重新創作為英文的詩體小說。


Weaver 最開始的觀點,只是揭示了語言被過度簡化後的一面。即便如此,他在 1947 年“翻譯即解碼”的觀點,早已成為驅動機器翻譯發展的重要信條。


自那時起,“翻譯引擎”不斷改進,特別是最近“深度神經網路”在機器翻譯中所取得的成果,讓一些評論者們又開始叫囂人類譯者瀕臨消亡的命運。比如,Gideon Lewis-Kraus 在《紐約時報》發表的那篇《The Great AI Awakening》,以及 Lane Greene 在《經濟學人》發表的那篇《Machine Translation: Beyond Babel》。根據他們的說法,人類譯者將在幾年內淪落為翻譯質量把控者與錯字校對的角色,而不再是文字的生產者。


要是翻譯領域果真發展到這一地步,那我的精神生活必將遭受重創。雖說我能完全理解他們要嘗試讓機器翻譯發揮更大價值的魅力所在,但我一點也不想看到人類譯者讓毫無感情的機器所取代。一想到這些,我就感到惶恐和反感。


在我看來,翻譯是一門極其講究的藝術,它要求譯者將豐富的生活經驗以及創造性的想象力用在再創作過程。如果機器翻譯的勉強還算“不錯”的語言,使得人類譯者淪為了過時“老古董”,這必將嚴重打擊我對人類智慧的尊崇,留下無盡的困惑與悲傷。


每每讀到人們宣稱某項新技術又要淘汰人類譯者,我就想要親自一探究竟,部分原因是害怕關於機器翻譯的噩夢最後成真,更多的是出於證實該文章有誇大其詞之嫌,以疏解我內心的焦慮,因為我堅信戳穿言過其實的 AI 謊言非常重要。


因此,在我讀到 Google Brain 用深度學習增強了舊的人工神經網路理論,並以這種技術實現出革命性的機器翻譯效果之後,我決定親自會一會這款最新的 Google 翻譯,看它是否真如國際象棋的“深藍”與圍棋界的 AlphaGo 一般,會成為機器翻譯領域的顛覆者?


眾所周知,舊版的 Google 翻譯可以處理很多種語言,但深度學習版的新 Google 翻譯最初只支援 9 種語言(譯註:目前是 96 種)。於是,我把探討的語種限定在四種:英語、法語、德語和中文。


在展示我的發現之前,我要先指出一點——“(deep)深度”一詞作為多義詞,在這裡有濫用之嫌。當人們聽說 Google 收購了一家用“深度學習”增強“深度神經網路”來做產品的公司(公司名還是 DeepMind)時,他們下意識會把“深度(deep)”理解為“深奧(profound)”,繼而推匯出“強大”、“見解深刻”、“深謀遠慮”的意思。但是,“深度”在這裡的真實含義,僅僅是說這些神經網路的層數比過去只有 2 到 3 層的舊網路多一些而已(比如 12 層)。不過,多出來的這幾層是否意味著神經網路所完成的任務一定很“深奧”?那可不見得,那只是語言上的使用技巧。


對於 Google 翻譯,我一直懷有較深的戒心,畢竟媒體對其炒作太過了。但是討厭歸討厭,Google 翻譯的一些能力還是讓我深感驚奇。全球每一個人都可以免費使用這項服務,它可以在大約 100 種語言之間任意翻譯。這一點確實令人類自感羞愧。如果我敢自稱“多語言者”,那 Google 翻譯就是當之無愧的“百語者”,畢竟我會的語言只有 3 種左右,其中一些語言還是略懂一點點,所以自稱“多語言者”是比較心虛的,但 Google 翻譯的一百種語言可真是貨真價實。


事實上,我只需把 A 語言的文字複製貼上到 Google 翻譯的輸入框內,它瞬間就能把整頁內容翻譯成 B 語言。況且,Google 翻譯還可以時刻不停地為全球使用者提供多種語言翻譯服務。


640?wx_fmt=png


Google 翻譯的實用價值毋庸置疑,總體來說它還是個不錯的產品。但它所用的方法卻存在很大的缺陷,用一個詞來描述就是——理解。畢竟,機器翻譯的焦點從來都不是理解語言;相反,該領域的研究策略一直都是避開內容的理解及其含義,亦即“解碼”。那麼,想要翻譯好文章,沒有對內容的理解果真可行嗎?人或機器的高質量翻譯,真能離開語言的含義而獨自完成嗎?


為了探討這裡問題,我親自用 Google 翻譯做了一些實驗,接下來會詳細解釋。


英-法互翻


一上來,我用的是短句,它的意思簡單明瞭,很容易理解:


In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.


(意為:在他們家裡,所有的東西都成雙成對。他和她有著各自的汽車、毛巾與收藏室。)


這句話的翻譯看上去很簡單,不過在法語和其他羅曼語中,Google 翻譯對物主代詞“his(他的)”或“her(她的)”的處理並不反映性別的變化,因為它處理的只是物主代詞後面的名詞,給出來的結果是這樣的:


Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.


果不其然,Google 翻譯落入了我的圈套,它根本無法像人類理解語言:即分清這句話描述的是一對夫妻,知道句子強調的是丈夫有的每樣東西,妻子都有與之相配的一個。相反,深度學習引擎使用同一個詞“sa”來指代“his car(他的車)”與“her car(她的車)”,令讀者無從判斷汽車所有者的性別。同樣,它還使用無性的複數形式“ses”來指代“his towels(他的毛巾)” 和 “her towels(她的毛巾)”。而對最後“his library and hers(他和她的收藏室)”的翻譯,名詞性物主代詞“hers”的“s”徹底把 Google 翻譯迷惑了,它以為“s”代表的是複數形式 (“les siennes”)。到最後,Google 翻譯徹底誤解了這句話所要表達的意思。


為了傳達原句的本來意圖,我只好親自將這些短句翻譯成法語:


Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.


其中,“sa voiture à elle”表示的是“her car”,“sa voiture à lui”表示的則是“his car”。表達清楚後,讓 Google 翻譯將我的法語準確譯回英語,我以為是水到渠成的事了。但我又一次想多了,它錯得更是離譜:


At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.


這說的都是什麼?儘管我在句中儘可能明顯地突出了所有者的性別資訊,Google 翻譯還是一個睜眼瞎,完全不知道這句話所要傳達的最關鍵資訊,而是簡單將所有人物主代詞都轉換成陽性的"his"。為什麼會是這樣?


我們人類能理解夫婦、房子、個人財產、自尊心、競爭、嫉妒、隱私等各種各樣抽象的概念,以及其它更為複雜的情形所形成的癖好,比如一對夫婦要把各自的毛巾繡上“his(他)”與“her(她)”。


Google 翻譯卻無法理解這樣的情境,或者說,它無法理解任何語境資訊。它所熟悉的只是由字母所構成的單詞、由單詞所構成的字串。Google 翻譯所關心的的只是如何對文字碎片化快速處理,而非文字背後的思考、想象、回憶或者理解。它甚至不想知道單詞背後所代表的事物是什麼。原則上,計算機程式可以理解語言的含義,可以擁有想法、記憶和經驗,並且可以使用它們,但這不是 Google 翻譯開發的初衷。它的開發者們甚至都沒有這樣的雄心。


看到 Google 翻譯這些令人啼笑皆非的語句,我不禁長舒一口氣——機器翻譯終究還是無法取代人類譯者。但我認為,我還是應當更加細緻地測試一番 Google 翻譯。畢竟,孤證不立,一燕難成夏(One swallow does not thirst quench)。


那麼,對於這句“One swallow does not thirst quench”——我從諺語(“One swallow does not a summer make”,意為孤燕不成夏)中新編出來的話,Google 翻譯把它會翻成什麼樣的法語語句呢?試過之後,Google 翻譯輸出給我這麼一個結果:“Une hirondelle n’aspire pas la soif”。這個翻譯倒也符合法語語法,但卻著實讓人費解。


首先,它用一種燕子(“une hirondelle”)來指代燕科(swallow)所包含的 74 種鳥,並說這隻鳥沒有在吸啜(“n’aspire pas”),而鳥吸啜的物件竟然是口渴(“la soif”)。顯而易見,Google 翻譯完全沒有理解我的意思,它只是將句子重新編碼成一堆亂七八糟的符號。而這句話“Il sortait simplement avec un tas de taureau.”,它竟翻譯成“He just went out with a pile of bulls(他剛跟一大堆公牛出去了).” 再將其翻譯回法語便成了“Il vient de sortir avec un tas de taureaux”。請原諒我這糟糕的法語,更準確地說,是 Google 翻譯的偽法語。


英-德互翻


說完法語,我們再來看德語。最近,我迷上了奧地利數學家 Karl Sigmund 的書《Sie nannten sich der Wiener Kreis》,英文名是《They Called Themselves the Vienna Circle(他們自稱是維也納學派)》。這本書寫的是上世紀 20 年代到 30 年代的一群維也納理想主義知識分子,他們對後世的哲學和科學有著重大的影響。


我就用 Sigmund 在這本書中所寫的一小段文字來測試 Google 翻譯,看它能翻譯出什麼樣的英語。我們一一來看,首先是 Sigmund 所寫的德語原文,然後是我自己的翻譯,最後是 Google 翻譯的結果。(順便說一下,我讓兩位母語是德語的人檢查過我自己的翻譯,其中包括 Karl Sigmund 本人,你基本可以認定我的翻譯是準確的。)


Sigmund:


Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.


侯世達翻譯:


After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.


(意為:戰敗後,教授們的政治傾向仍以泛德意志主義為主,他們認為自己有責任保護高等研究所免遭“不受歡迎的人”侵擾。其中最有可能遭受敵視的,就是那些尚未有權利教大學課程的年輕學者。至於女性學者,則完全沒有她們的立身之處,沒有比這更清楚的了。)


Google 翻譯:


After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.


Google 翻譯結果中的詞彙倒也都是英文單詞,縱然如此,其中有幾個單詞還是很不恰當地用成首字母大寫的形式,不知什麼原因。這些詞開始還能組成一句話,但越往後,你就越不知所云,翻譯效果慘不忍睹。


我們先看引號中的“the ‘odd.”,它在德語原文中所對應的是“die ‘Ungeraden”,意指“在政治上不受歡迎的人”。不過,Google 翻譯在這裡將其譯為“odd”是有原因的:統計。也就是說,在 Google 翻譯所用的龐大雙語資料庫內,“ungerade”幾乎總是被譯成“odd”。


雖說翻譯引擎自己並不懂得為何要如此轉換,但我能告訴你原因。這是因為 “ungerade” 在使用中幾乎總是“奇數(無法被2整除的數)”的意思,儘管它在字面上的意思是“不直的”或“不平的”。相反,我用“undesirables”一詞來譯“Ungeraden”就跟單詞的統計資料毫無關係了,純粹是基於我對上下文的理解——它的含義深藏於字裡行間,任何德語詞典的“ungerade”釋義都文不對題。


然後說說另一個德語單詞“Habilitation”,它指的是一種大學職位,類似於終身教授。在英語中,與“Habilitation” 同源的詞彙儘管存在,但卻極為罕見,讀者肯定不會把它和終身教授聯絡到一塊。這就是為什麼我要簡單解釋一下詞中這層含義,而非直接去用一個生僻詞,要不普通英語讀者讀起來肯定一頭霧水。Google 翻譯當然是做不到這一點的,它壓根就沒有讀者所具有的知識模型。


原文的最後兩句很好地證明了“理解”在翻譯中的重要性。“Wissenschaftler”這個由 15 個字母組成的單詞指的是“科學家”或“學者”(我認為是後者,因為按原文語境它指的是知識分子階層。Google 翻譯沒有理解出這層微妙的含義)。最後一句中的“Wissenschaftlerinnen”是“Wissenschaftlerin”的複數形式,而且是一個陰性德語名詞。“Wissenschaftler”在語法上是陽性名詞,指的是男性學者,“Wissenschaftlerinnen”是陰性名詞,只能指女性學者。我翻的時候用“female scholar”來傳達這層含義。但是,Google 翻譯並不知道“Wissenschaftlerin”中的字尾“-in”是最後一句中需要仔細注意的地方。它不知道這個詞指的只是男性學者,因此它用的是“scientist”這個詞,丟失了原句要點。和之前翻譯法語一樣,Google 翻譯完全不知道這個德語句子的唯一目的是突出男性和女性對比。


除了這個重大錯誤,最後一句其他部分的翻譯簡直是災難。先看前一半。“scientists did not question anyway”真的是“Wissenschaftlerinnen kamen sowieso nicht in frage”的正確翻譯嗎?譯文和原文的含義完全是牛頭不對馬嘴,譯文中的單詞只是按照德語單詞隨意生成的,這能稱得上是“翻譯”嗎?


最後一句後半部分的翻譯也同樣很糟糕。最後六個德語單詞字面上的含義是“over little was one more united”,更流暢地說是“there was little about which people were more in agreement”(這一點幾乎沒什麼異議),但是 Google 翻譯將這個明顯的含義翻譯為“There were few of them(幾乎什麼都沒有)”。讀者看到一定會疑惑地問“Few of what?(什麼沒有)”,但是對機器翻譯這個機械聽者而言,這個問題沒有意義。Google  翻譯沒有想象能力,因此它無法回答這種看起來很簡單的問題。它在翻譯時並不會進行大量或些許想象。它只是隨意組合單詞,對單詞所代表的含義完全沒有概念。


ELIZA 效應


對於具備人生經驗和理解能力,並能熟練使用文字不同含義的人來說,他還是很難意識到 Google 翻譯生成的譯文有多麼空洞。人們想當然認為,可以如此流暢處理文字的軟體肯定理解箇中含義。人們對人工智慧專案產生的經典幻覺被稱為是“ELIZA 效應”。上世紀 60 年代,一個名叫 ELIZA 的專案可以讓使用者相信它可以理解英語,實際上它根本不知道自己在說什麼。ELIZA 模擬一名心理治療醫師,與它“聊天”的許多使用者都誤以為 ELIZA 可以深刻地理解他們的內心感受。


數十年來,ELIZA 效應騙過了很多見多識廣的人,甚至包括一些人工智慧研究人員。為了讓讀者可以避開這個陷阱,我將引用上文中的幾個句子來說明:“Google 翻譯不理解”,“Google 翻譯沒有意識到”、“Google 翻譯沒有最起碼的想法”。這些句子看起來似乎是自相矛盾的,一方面說 Google 翻譯缺乏理解能力,另一方面又暗示 Google 翻譯至少有時可以理解單個單詞、短語或句子的含義。事實並非如此,Google 翻譯的設計就是為了迴避或規避理解語言的。


在我看來,“翻譯”一詞散發著神祕且動人的氣息。它是一種人文色彩濃厚的藝術形式,要求譯者要優雅地用語言 B 將語言 A 中明確的思想表達出來,這個過渡過程不僅要確保明確性,而且還要將原作者寫作風格、技巧和特質傳達出來。在翻譯之前,我首先會仔細地閱讀原文,將原文中的思想盡可能清晰地印在我的腦中,一遍又一遍地咀嚼。我咀嚼的不是原文文字,而是文中那些激發各種相關思想的思想,通過這樣做,我可以在我的腦中構想出豐富的相關場景。不用說,大部分構想過程是潛意識的。只有當我的腦中構建的場景足夠豐富時,我才會試著用另一種語言將它們表達出來——“將它們提取出來”。在翻譯時,我試著以我認為的自然方式用語言 B 表達我腦中的場景,這些場景構建的就是原文的含義。


簡而言之,我不是將語言 A 的單詞和短語直接譯為語言 B 的單詞和短語。在翻譯時,我會下意識地在腦中構出影像、畫面和想法,挖掘我以往(讀過、在電影中看過或從朋友口中聽過的)的經驗。只有當非言語的、意象式的、經驗性的思維構想在我腦中形成時——只有當象徵原文含義的虛無縹緲的氣泡在我腦中漂浮時——我才會用目標語言組織單詞和短語,然後再一遍又一遍進行修改。這個以文字含義為媒介的翻譯過程雖然聽起來相當緩慢(與 Google 翻譯兩三秒翻譯一頁文字的速度比起來確實慢),但它正是所有嚴肅的人類譯者在翻譯時要完成的一個過程。這種翻譯才是我聽到“deep mind”(深度思維)這樣的片語時所理解的翻譯。


中-英互翻


接下來我檢驗了 Google 翻譯的中文翻譯。相比法語和德語這兩種歐洲語言,中文對深度學習軟體的挑戰更大得多。我從中國劇作家和翻譯家楊絳(最近以 104 歲的高齡逝世)的回憶錄《我們仨》(We Three)中節選一部分作為測試材料。楊絳的這本書講述的是她和她的丈夫錢鍾書(小說家和翻譯家)以及女兒的生活。這本書雖然不是特別晦澀,但是它的文字相當考究且生動。我節選了一小段,讓 Google 進行翻譯。以下是Google 翻譯給出的結果和我本人的翻譯(經過中文母語者的檢查):


楊絳:


鍾書到清華工作一年後,調任毛選翻譯委員會的工作,住在城裡,週末回校。 他仍兼管研究生。

毛選翻譯委員會的領導是徐永煐同志。介紹鍾書做這份工作的是清華同學喬冠華同志。

事定之日,晚飯後,有一位舊友特僱黃包車從城裡趕來祝賀。客去後,鍾書惶恐地對我說:

他以為我要做“南書房行走”了。這件事不是好做的,不求有功,但求無過。


侯世達翻譯:


After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

“He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”


Google 翻譯:


After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.


下面我將指出幾個奇怪的地方。首先,雖然“鍾書”這個名字在原文中出現了三次,但是 Google 翻譯卻沒有將它表達為人名。在第一處,Google 翻譯使用了人稱代詞“he”,第二處,Google 翻譯將“鍾書”翻為“the book”;第三處,Google 翻譯將“鍾書”翻為“the book of fear in the book”。看看這是什麼翻譯!


第二個奇怪的地方在第一段中,文中說的是鍾書兼管研究生,而 Google 翻譯卻說他本人是研究生。


第三個奇怪的地方在“毛選翻譯委員會”(Mao Tse Translation Committee)這個短語上,Google 翻譯遺漏了中國主席毛澤東的名字中的“澤”字。


第五個奇怪的地方是“after our guest had left”被縮減為“guest to go”。


第六個奇怪的地方是 Google 翻譯的譯文最後一句根本說不通。


這六個錯誤已足以讓 Google 翻譯顏面掃地,我們暫不追究。下面我們看一個令人疑惑的短語:最後一段中雙引號中的內容(“南書房行走”)。這個短語逐字可以翻譯為“south book room go walk”,這顯然是講不通的,它在原文中充當的是一個名詞,而 Google 翻譯的“South study walking”根本不對。


我承認我也不理解這個中文短語是什麼意思。雖然從字面上看,它指的是在某個建築南側的一個書房中走來走去,但是我知道這肯定不對;它在上下文語境中根本講不通。為了翻譯這個短語,我必須查清是不是有什麼我不知道的中國文化。我該找誰幫忙呢?找Google!(但不是 Google 翻譯)。我連帶雙引號在 Google 搜尋中用中文輸入了“南書房行走”,搜尋引擎很快顯示了一大堆中文網頁。然後我艱辛地閱讀了前幾個網頁中開頭幾段內容,試圖弄清這個短語是什麼意思。


我發現這個短語可以追溯到清朝(1644–1911),它指的是皇帝的書房先生。書房先生的職責是“在故宮的南書房”幫助皇帝撰寫皇旨。“行走”字面上指的是“go walk”,但實際上指的是助手。根據 Google 搜尋提供的資訊,我將這個短語翻譯為“South Study special aide”。


Google 翻譯無法像我一樣利用 Google 搜尋的服務,這是不是很可惜?雖然 Google 翻譯可以在眨眼之間翻譯網頁,但是它無法理解這些網頁的內容。它能嗎?以下是我將上文中搜尋網頁的內容提交給 Google 翻譯後給出的輸出文字:


“South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking.” Because of the close to the emperor, the emperor’s decision to have a certain influence. Yongzheng later set up “military aircraft,” the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.


這真的是英語嗎?當然我們知道都是——確切地說,大部分是英語單詞,但是這是一段英語文章嗎?在我看來,這段內容沒有任何含義,因此它算不上是英語。它只是一團亂七八糟的隨機英語單詞沙拉或邏輯不清的單詞大雜燴。


如果你有興趣,下面是我對這段網頁內容的翻譯(花了我數小時時間):


The nan-shufang-xingzou (“South Study special aide”) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor’s current intellectual academician. The group of academicians who worked in the imperial palace’s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor’s beck and call; that is why this role was called “South Study special aide.” The South Study aide, being so close to the emperor, was clearly in a position to influence the latter’s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor’s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.


一些讀者可能懷疑我為了抨擊 Google 翻譯故意挑選了翻譯得很差的片段,他們認為實際上 Google 翻譯的結果有絕大部分段落的表現要更好。這似乎聽起來有點道理,但是事實並不是這樣。從我正在閱讀的書中節選出的一些內容輸入到 Google 翻譯,它翻譯的每一段都有各種各樣的大錯誤和小錯誤,包括像上文那樣的無意義和無法理解的句子。


當然我承認,Google 翻譯有時候給出的翻譯確實看起來不錯(儘管它們可能是有歧義或是完全錯誤的)。一整段或幾個句子可能翻得相當不錯,但這可能讓人錯誤地認為   Google 翻譯知道自己在做什麼,知道什麼是“閱讀”。在這種情況中,Google 翻譯似乎真的表現得很好——幾乎像人一樣!這當然歸功於它的創造者以及他們的努力。但同時,不要忘了 Google 翻譯在翻譯上面兩段中文以及法語和德語文章時的糟糕表現。


為了理解這樣的糟糕表現,我們必須時刻謹記 ELIZA 效應。Google 翻譯雖然可以翻譯一百多種語言,但是它不能閱讀——人類定義中的“閱讀”。它只是在處理文字,它處理的符號是和現實生活經驗脫節的。Google 翻譯沒有可以利用的記憶和理解能力,它快速生成的翻譯有時甚至沒有任何含義。


機器離真正理解語言有多遠?


一位朋友曾問我,Google 翻譯的翻譯水平是否只是程式資料庫的一個函式。他的觀點是,如果將資料庫的大小擴大一百萬倍或十億倍,最終 Google 翻譯將能完美地翻譯任何語言。我並不這樣認為。再多的“大資料”也不能讓機器擁有理解能力,因為理解的關鍵在於有思想。沒有思想是當前機器翻譯所有問題的根本所在。因此,我認為更大的資料庫——甚至超大的資料庫——是無法解決問題的。


另一個常見的問題是,神經網路技術的使用是否能幫助機器實現真正的語言理解能力。剛開始時這聽起來很有道理,但是現在的嘗試全都侷限在單詞和短語的翻譯上。神經網路雖然可以利用各種關於大型資料庫的統計學事實,但是這些統計學事實只是將單詞與其他單詞聯絡起來而已,而不是將單詞與思想含義聯絡起來。當前還沒有人在嘗試創造可以實現思想、想象、記憶或經驗的內部結構。現在來說,用計算實現這樣的超智慧技術簡直是天方之談,因此人們才轉向快速、成熟的統計學詞語聚類演算法。但是這種演算法得出的結果差強人意,跟人類閱讀、理解、創造、修改和評價一篇文章時的思維過程根本無法相提並論。


雖然我持否定態度,但是仍有很多人對 Google 翻譯提供的服務評價很高:它將語言 A 寫就的有意義文字簡單快速地轉換為了由語言 B 組成的意義並不明顯的文字。只要語言 B 文字或多或少可以讓人理解,許多人對此就會感到非常滿意。如果他們可以“大致理解”用他們不懂的語言寫的文章,他們就滿足了。我個人認為 “翻譯”的定義並不是這樣,但是一些人認為 Google 翻譯是一項好服務,而且給出的結果可以算作是翻譯。好吧,我知道他們的需求,我也理解他們為什麼會感到滿意。這對他們而言是一種幸運。


我最近看到一些新技術愛好者製作的條形圖,他們用此來代表人類和計算機翻譯的質量,這些條形圖表明最新的翻譯引擎在翻譯水平上已非常接近人類了。在我看來,將不可計量的假科學進行量化,實際上只是技術狂們試圖用數學來解決他們不理解的無形、微妙、藝術性的東西。依我之見,當前 Google 翻譯得出的結果有的很好,有的則十分可笑,但是我無法量化我對這些翻譯的感受。以我舉的第一個例子來說,無思想的 Google 翻譯幾乎把所有單詞都翻譯對了,但是它完全沒有翻出原文的含義。在這種情況下,翻譯的質量可以被量化嗎?用看上去很科學的條形圖來表示翻譯質量,只不過是亂套上科學的“外衣”而已。


談到人類譯者未來令人悲哀的境況,他們不久便會被機器超越並淘汰,逐漸成為質檢員和校對員。對平庸的譯者來說,這是最好的出路。但是真正的藝術家是不會屈身於處理錯誤滿篇的譯文,通過到處修改來生成高雅的藝術作品。這不是藝術的本質,而翻譯卻是一門藝術。


在多年的寫作生涯中,我一直認為人類大腦是一種機器——一種非常複雜的機器,我非常反對機器本身無法處理含義的觀點。有一個哲學家學派甚至聲稱計算機是永遠無法“掌握語義”的,因為它們的“構造”(矽)是錯的。在我看來,這完全是無稽之談。在本文中我不會探討這一論題,但是我不想讓讀者認為我相信機器是永遠無法實現智慧和理解的。如果我在本文給讀者造成這種印象,那是因為我在本文中討論的技術沒有嘗試複製人類智慧。相反,它試圖用迂迴的方法來避過人類智慧,上文中給出的譯文清楚地揭示了這種技術的缺陷。


我認為,沒有任何實質性理論依據可以證明:在理論上機器無法思考、創造、搞笑、懷舊、激動、害怕、狂喜、順從、滿懷希望,無法完美地翻譯語言。也沒有實質性理論依據可以證明:機器不可能完美地翻譯笑話、雙關語、劇本、小說、詩歌或像本文這樣的文章。但是隻有當機器像人類一樣擁有思想、感情和經驗時,這樣的美夢才會實現。我相信這一天離我們還很遠,作為一個對人類心智的深奧的崇拜者,這是我所熱切希望的。


如果有一天翻譯引擎可以用英語創作出巧妙絕倫、富有感染力、朗朗上口的詩體小說,而且是韻腳採用抑揚格調的四音步詩,那時,我就該隱退文壇了。


原文地址:https://www.theatlantic.com/technology/archive/2018/01/the-shallowness-of-google-translate/551570/


招聘

AI科技大本營現招聘AI記者和資深編譯,有意者請將簡歷投至:gulei@csdn.net,期待你的加入!


如果你暫時不能加入營長的隊伍,也歡迎與營長分享你的精彩文章,投稿郵箱:suiling@csdn.net


AI科技大本營讀者群(計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向)正在招募中,關注AI科技大本營微信公眾號,後臺回覆:讀者群,聯絡營長,新增營長請備註姓名,研究方向。

640?wx_fmt=gif

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

相關文章