人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

dicksonjyl560101發表於2018-01-03

https://mp.weixin.qq.com/s/dL0_T8WEt770CUjeUMz8mw

由於人工智慧的飛速發展,機器翻譯水平正在大幅提升,並逐漸趕超人類,這已經是不爭的事實。然而,同在機器翻譯這個賽道里的各位“賽手”,谷歌、有道等傳統翻譯產品或公司,也正在上演著一場激烈的角逐和比拼。

人工智慧翻譯大賽 谷歌竟然連敗兩場?

12月的一個早上,北京798軟體園,一場機器翻譯的pk賽正在進行。活動主辦方品玩,是一家“有品好玩”的科技媒體。

這場人工智慧翻譯大賽的規則是三局兩勝,第一局考驗對話翻譯,第二局考驗識別能力,第三局是挑戰影像翻譯。

而三款同臺競技的翻譯軟體則是:Google翻譯、有道翻譯官和搜狗翻譯。

前兩局的的賽果,有道翻譯官透過穩定的發揮,以小幅優勢領先,尤其是憑藉著對《大話西遊》的經典臺詞的準確翻譯,讓現場的觀眾真正領教到了人工智慧翻譯的實力。而真正拉開實際距離的是第三局,拍照翻譯。

主持人隨機選了一段BBC氣候變化的新聞作為翻譯素材,標題是《How Greenland would look without its ice sheet》。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

這是三家翻譯軟體給出的結果:

  • Google翻譯:如何格陵蘭島看起來沒有它的冰表。

  • 有道翻譯官:如果沒有冰蓋,格陵蘭島將會怎樣?

  • 搜狗翻譯:沒有冰的格陵蘭島會是什麼樣子。換行之後又翻譯了一個字:表。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

最終,有道翻譯官三局兩勝,拿下來這場人工智慧翻譯大賽。

實際上,這不是有道翻譯(包括有道詞典、有道翻譯官、有道翻譯網頁版等產品)拿下的第一次勝利。早在一個月前,一場人機之間的翻譯大賽中,有道翻譯同樣以高比分拿下第一。

這是一場由第三方翻譯評測機構“試譯寶”發起的機器翻譯人機PK賽,人類軍團的翻譯好手和機器軍團同臺競技。

最初的翻譯素材採取自《Financial Times》的報導文章,每一段翻譯文字下都有對應的四句翻譯結果,其中只有一句是人類翻譯的,其他三句都是機器翻譯的。使用者需要在這四句翻譯結果中,選出他們認為的最可能是人類翻譯的選項,如選擇正確,則人類軍團得一顆譯星,如翻譯錯誤,則相應的機器軍團中的選手得一課譯星,也就是說獲得譯星越多,表明其翻譯越準確。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道? 
你能看出哪個是人類翻譯的結果麼?

截止最新的結果,人類獲得45%譯星,機器獲得55%譯星。在機器軍團貢獻榜,有道獲得譯星最多,遠高於谷歌、搜狗、百度和必應。(資料來源“試譯寶”)。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

不到一年的時間,人工智慧給機器翻譯領域帶來了質的飛躍,也改變了普通大眾對於機器翻譯曾經“蹩腳、不準、不智慧”的古板印象。

而在機器翻譯領域競逐的“賽手”也越來越多,有道、谷歌、搜狗、百度,都或早或晚的佈局人工智慧翻譯。

可是,為什麼本應該更有優勢的谷歌翻譯,在兩場比賽中卻不如有道?

中文翻譯不如有道  谷歌輸在哪裡?

實際上,由於學術界近兩年在人工智慧方面的突破,給了各家翻譯公司提供了大量的理論基礎和支撐,各家使用的神經網路翻譯模型其實大同小異,但在模型具體的訓練上,各家是有差別的。

這其中的原因很多,包括語料的不同、對於句子的“單元處理”以及不同領域內的適配能力。

機器翻譯的語料:你吃什麼就像什麼

資料對於人工智慧來說至關重要,一個人工智慧系統通常有非常強大的自我學習能力,而它學習的原始素材就是來自於大量的資料,對於神經網路翻譯模型而言,這些資料就是語料。

語料有多重要?我們來做一個比喻。

假如把神經網路翻譯比作人腦,它可能相當於一個三歲兒童,這個兒童正在咿呀學語,但是學習速度驚人。

小明和小剛是兩個年齡三歲左右的兒童,他們大腦構造相同,把他們放置在兩個不同的語料環境中學習語言。小明在A語料環境中,在這個語料環境中,“Apple”被翻譯成“蘋果”,並且長時間不斷如此重複。一段時間後,當小明看到“Apple”這個詞後,脫口而出就知道是“蘋果”。小剛在B語料環境中,“Apple”被翻譯成“蛇果”,偶爾也會翻譯成“蘋果”,但只有少數一兩次。一段時間後,當小剛看到“Apple”這個詞後,他會說成是“蛇果”。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

這就是語料對於神經網路模型的重大影響。當模型在大量的資料中進行自我學習時,平行語料中的某一方語料本該有的“詞義”缺失或者不準確(比如“Apple”對應的語料中沒有“蘋果”這個意思,或者很少出現),則模型在翻譯的時候,很難或者根本無法翻譯出準確的結果。(因為它根本不知道可以翻譯成“蘋果”)。

如果你對上面的內容大概有所瞭解,我們再看一段BBC上的新聞:

Universal Music Group’s executive vice president of digital strategy, Michael Nash said: "Together, Facebook and UMG are creating a dynamic new model for collaboration between music companies and social platforms to advance the interests of recording artists and songwriters while enhancing the social experience of music for their fans."(摘自BBC 2017.12.21)

谷歌的結果是:

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

有道的結果是:

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

在有道和谷歌的翻譯中,有兩個地方有明顯出入:

“recording artists”谷歌翻譯成“錄音藝術家”,有道是“唱片藝術家”;“for their fans” 谷歌翻譯成“為他們的球迷”,有道是“為他們的粉絲”

透過結果可以看出,在谷歌的平行語料中,“recording ”被翻譯成“錄音”,而在有道的語料中“recording ”或許既有“錄音”的意思,也有“唱片”的意思,但由於和上下文的結合,有道更能理解此處應該翻譯為“唱片”更準確。

所以最終的結果就是,有道翻譯更懂中文。

在翻譯中,有兩個基本的維度是必須考核的:忠實度和流利度。我們常說的“信達雅”中,“信”和“雅”都是屬於忠實度的層面,“達”則是流利度的層面。而語料準確與豐富與否,不僅僅影響著忠實度,還影響著句子的流利度。

還是上文的句子,“for their fans在原文中放在了句末。在翻譯結果裡,有道把“為他們的粉絲”往前提,而谷歌“為他們的球迷”則依然放在了句末。

在英語語法中,介詞短語如果不是表示強調的情況下,的確一般放在句末。但是在中文的表達裡,則會提前。

這種關於語序的調整,神經網路翻譯模型也會透過大量的資料進行學習、理解。也就是說,有道翻譯的神經網路模型在其訓練的語料中,已經大量存在把介詞短語往前提的情況,所以當再次遇到這類句子翻譯的時候,它就明白應該把“for their fans”往前提。

句子就像蛋糕 怎麼“切”決定翻譯是否通順

除了語料的問題,在翻譯中還一個常見的問題,也就是如何對句子進行“斷句”,專業術語叫做“處理單元”。

我們在初中學古文的時候,老師常會讓我們在翻譯之前,先把句子進行斷句,分成多個部分然後再進行翻譯。

神經網路翻譯模型也是一樣,再對一個句子進行翻譯之前,它首先會對這個句子進行“斷句”,而“斷句”的準確性,會直接影響到後面的翻譯結果。

再來看一個例子,如何翻譯”小美美美地睡了一覺“呢?

正常人的翻譯步驟是“小美-Xiaomei ,美美地-good/nice,睡了一覺-had a sleep”,組合調序得出的翻譯結果是”Xiaomei had a good sleep.” 

那機器翻譯地結果呢?

谷歌翻譯:“little America beautiful sleep”

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

有道翻譯:“little beauty had a good sleep”

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

可以看出,有道翻譯基本遵循了人類的邏輯進行分詞,而谷歌翻譯則是一個字一個字的進行分詞。谷歌曾在公開資料表示他們是逐字處理,而實際上,這種逐字的處理問題在於,一旦遇到複雜的內容,翻譯內容就會造成損失,而這種損失反應在結果中會被放大,造成內容丟失或不通順。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?
人腦vs機器的“斷句”模式

領域適配技術 讓機器徹底戰勝人類?

除了語料、“斷句”,還有一個因素會很大程度上影響翻譯的質量:領域的問題。

打個比方說,一個經常寫網路小說的作家,讓他去寫純技術文章,他可能無從下筆,因為大家所涉獵的領域不同。同樣一個經常翻譯新聞的模型,突然遇到一段醫學內容,也可能會翻譯得非常蹩腳。

在判斷一個模型的翻譯能力時,主要有三個維度:種類、領域和質量。

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

在這個象限中,人類處於 “高質量、高領域、低種類”,例如小方是中國人、二十歲、普通話一級甲等、涉獵領域廣泛,但他或許只會說中文,其他語言一概不通。

而機器處於“高質量、低領域、高種類”,因為機器有大量的資料和語言庫,市面上隨便一個翻譯軟體都至少能翻譯10種以上的語言,並且隨著人工智慧的發展,機器翻譯的質量大幅提升。但所涉獵的領域明顯沒有人類多,因為每個領域都需要不同的語料訓練和模型。

所以,如果機器要全面戰勝人類,必須在領域上下功夫;而人類要戰勝機器,必須在種類上下功夫。顯然,後者有點難以做到,因為沒有哪個人可以學會世界上所有語言。

但機器在領域上開始有了新的突破,在有道神經網路翻譯中,工程師們已經開始讓系統能夠自動適配不同領域的內容,稱之為“領域適配技術”。

在有道翻譯中,系統會預設給出一種翻譯結果。但這是否是最優結果呢?未必。因此係統在預設結果基礎之上,系統還給出了 “領域適配”之後最優翻譯結果,這就很大程度上的提高了翻譯的準確性。

比如下面這段話,是一段專業領域的內容:

“The converter is installed at the correct position when the special tool locating pin can be inserted through the opening in the converter bell housing in front of the converter . ”

人工智慧翻譯之間的對決:谷歌為什麼敗給了有道?

在有道翻譯通用模型中,翻譯結果並不是最佳的,而點選“更多翻譯結果”之後,針對機械領域適配過的模型,翻譯出來的效果更好(上圖中更多結果的第4個)。

人工智慧的熱潮還剛開始,對於機器翻譯而言,人工智慧為其開啟了一扇新的大門,但是未來“機器翻譯”是否能夠更聰明,並徹底超越人類,其實還有很長的一段路要走。

而無論是有道還是谷歌,他們的每一次技術革新和進步,都將為整個人類的生產、生活帶來巨大的便利;比如現在出國旅行不會英語,就完成不用擔心,直接用翻譯軟體就能解決。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2149672/,如需轉載,請註明出處,否則將追究法律責任。

相關文章