李沐、劉群、劉洋、朱靖波、張民:當前機器翻譯的瓶頸

AIBigbull2050發表於2020-11-12

李沐、劉群、劉洋、朱靖波、張民:當前機器翻譯的瓶頸

作者 | Mr Bear

編輯 | 青暮

第十六屆全國機器翻譯大會(CCMT 2020)於2020年10月10日至12日線上上舉行。

CCMT旨在為國內外機器翻譯界同行提供一個互動平臺,加強國內外同行的學術交流,召集各路專家學者針對機器翻譯的理論方法、應用技術和評測活動等若干關鍵問題進行深入的研討。

除學術論文報告外,本次會議邀請了國內外知名專家進行特邀報告,面向學生和青年學者舉行專題講座,邀請學界和產業界專家舉行專題討論會,面向研究者和使用者進行系統展示等,透過豐富多彩的形式和與會者互動探討機器翻譯最熾熱的研究論點,揭示機器翻譯最前沿的藍圖。

10月11日,CCMT組織了一場論壇,主題是“當前機器翻譯的瓶頸”,主持人騰訊AI Lab專家研究員塗兆鵬博士。

騰訊雲與智慧產業事業群智慧平臺部總監、騰訊技術研究通道委員會委員李沐,華為諾亞方舟實驗室語音語義首席科學家劉群,清華大學電腦科學與技術系長聘教授劉洋,以及東北大學計算機學院人工智慧系教授、小牛翻譯創始人朱靖波以及蘇州大學計算機學院院長張民在這場論壇中就三個話題進行了討論。

這三個話題分別是:

  • 機器翻譯的瓶頸在哪裡?

  • 是否存在第四代機器翻譯?

  • 自然語言處理的可解釋性研究之爭。

對於第一個話題,專家們就應用和技術層面進行了討論。朱靖波教授認為機器翻譯的瓶頸主要在應用層面,李沐博士強調了瓶頸的定義問題,劉群教授指出資料稀疏是個瓶頸,劉洋教授則補充道知識獲取也是一個瓶頸。

值得一提的是,針對第二個話題,朱靖波教授提出了“不存在第四代機器翻譯”的觀點,直面眾專家的反駁,張民教授在這時候加入,並表示反對。

在第三個話題的討論中,眾專家就可解釋性的定義和重新理解層面進行了討論。朱靖波教授提出了一個富有啟發性的問題:應該從揭示機器翻譯模型的數學推理過程的角度研究可解釋性,還是從人類對模型結果的理解的角度研究可解釋性?

最後是Q&A環節,線上觀看的網友提出了關於先驗知識、評價指標、翻譯藝術性以及預訓練模型等8個問題,專家們一一進行了解答和討論。

以下是論壇全文,AI科技評論進行了不改變願意的整理。

1 機器翻譯的瓶頸在哪裡?

朱靖波:我首先拋磚引玉。所謂“瓶頸”,是指技術發展停滯不前了。雖然現在機器翻譯中面臨一些困難,但它現在還正處於蓬勃發展的階段。

談到“瓶頸”,我覺得無非可以分為技術的瓶頸和應用的瓶頸。關於技術的瓶頸問題,可以留作後面幾位老師來詳細講,我說一說應用的瓶頸問題。

機器翻譯最初是從規則開始乾的,很痛苦。但早期的技術不成熟,即使免費給大家用都不願意使用,所以也沒有太多應用。但到了第三代,也即神經機器翻譯出來以後,大家都能夠看到它翻譯的效果變好了,於是開始有人願意去使用,甚至願意去買單。這時候就有投資人覺得這裡能賺錢,開始往裡投錢。所以簡單來說,近幾年有越來越多的資源投入到機器翻譯這個領域。所以我覺得現在機器翻譯的應用是在往上走的。

李沐、劉群、劉洋、朱靖波、張民:當前機器翻譯的瓶頸

但有一點是,同樣作為剛需,為什麼機器翻譯的應用,並沒有像語音等領域突然爆發,出現一系列的獨角獸公司?我的一個初步觀點是,機器翻譯儘管是強剛需,應用也非常多,但它在整個應用市場上的應用模式卻很少。

在我看來,機器翻譯並沒有真正制約其發展的“瓶頸”,如果一定要說存在瓶頸,那麼應用模式的匱乏應該是機器翻譯領域的瓶頸之一。

李沐:應用是一個很大的話題。剛才朱老師提到,機器翻譯是剛需,但什麼是“剛需”是需要定義的。相比可有可無、只是打發時間的娛樂性工具,機器翻譯是工作或生活上的一種需求;但從另一個角度來說,機器翻譯在很大程度上是和人工翻譯服務重疊的。所以,儘管對機器翻譯有所需求,但是需求程度究竟有多大還是值得探究的。

事實上,針對這個問題,多年來,無論是學術界還是工業界,都沒有給出一個特別明確的答案,許多機構的報告,也都是從整個翻譯領域來做的,而其中很大比例上也都是人工翻譯。整個翻譯界需求,在多大程度上會被機器翻譯技術所取代,實際上還是未知的。

再回過頭來說,為什麼大家會覺得機器翻譯遇到瓶頸了呢。機器翻譯最初和語音一樣,多年以來一直沒有太多進展,技術完全不成熟。但2010年深度學習的爆發之後,技術水平一下子提升了許多,然後各種美好的幻想和肥皂泡就飄了起來。一旦遇到一些現實中的困難,就會覺得是遇到了瓶頸。

實際上,如果把時間拉長,從整個技術發展的歷史來看,現在遇到的各種困難,不過是小小的浪花而已。從應用角度來看,現在的機器翻譯相比10年前,範圍肯定要大很多,很多原來不可能使用機器翻譯的場景也都開始使用了,例如各個大會上的輔助機器同傳等;各個翻譯平臺,例如谷歌、百度、騰訊以及小牛等,服務的流量也都提升了幾個量級,而且能夠服務於業界的各種公司場景(例如金融、遊戲等)。

所以我們對“瓶頸”的定義十分重要,需要明確討論的是此類技術增速的瓶頸,還是完全無法推廣使用的瓶頸。

劉群:我基本同意剛才兩位老師的觀點。

從應用角度來說,目前機器翻譯肯定不是處於瓶頸期,它的應用還在不斷擴充中。從技術角度來說,也不能算遇到了瓶頸期,只是發展地比前一段時間稍微慢了一點,但我認為現在深度學習技術的紅利還沒有挖盡。所以總體上來說,機器翻譯並不是處於瓶頸期。

不過如果非要講遇到的阻力,則主要體現在資料上面。現在的深度學習技術(包括之前的統計機器翻譯技術)是一種資料驅動的技術。雖然在主流語種之間的翻譯已經相當不錯了,但對於低資源的小語種,效果要差得多;此外,對於一些專業領域,例如醫學文獻、法律文獻等,往往存在許多翻譯錯誤。

資料稀疏的問題,我們永遠不可能解決,除非以後能夠開發出非資料驅動的技術,否則這種瓶頸將永遠存在。但我們可以更有效地利用資料,如果把資料探勘得足夠,我們能夠做得更好。

劉洋:我認為從技術的角度來看,機器翻譯應該是再次進入了緩慢發展期。從2017年出現 Transformer 以後的三年中,沒有一個新的重要模型能夠替代它。另外技術指標上也沒有一個大幅度的提升。

當前機器翻譯技術上的瓶頸,我認為主要是在翻譯知識的獲取上。大家使用當前的機器翻系統時,可能有一種感覺,就覺得整體上翻譯的還挺好,但經常會犯一些我們人類看來比較簡單的錯誤。

這本質上是機器翻譯系統獲得翻譯知識的能力不夠,特別是獲得常識的能力不夠。

我們可以類比一下人的學習過程。小時候是父母手把手教,上學了以後有課本、作業、考試,進入社會以後就自己摸爬滾打去感悟和總結經驗。這個過程跟機器翻譯乃至人工智慧的發展歷程是非常類似的。

早期機器翻譯用基於規則的方法,是由專家寫成複雜的規則,手把手教機器,此時知識的呈現方式其實就是一種由人總結出來的符號規則。

90年以後,開始進入有監督學習時期,我們給機器大量的平行資料,然後為機器建立數學模型,在資料上估計模型引數,此時的模型引數其實也是某種形式的知識,只不過這種知識是機器自動從資料中學出來的。這種知識,早期是生成模型的引數,後來是特徵值和特徵權重。

從90年代的統計機器翻譯發展到今天的神經機器翻譯,事實上從資料中學習特徵表示的能力已經發揮得淋漓盡致了,從標註資料中挖掘翻譯知識,我覺得目前基本上已經走到盡頭了。

此外,資料的規模增長也不會有太大的提升,現在大家再去網上抓取平行資料,很難有數量級上的增長。

因此我認為,現在機器翻譯的瓶頸在於,我們能否擴大翻譯知識獲取的來源,改變翻譯知識獲取的方式。

所以,以後應該進入第三個階段,就是要擺脫目前這種純粹的表示學習加標註資料的正規化,應該讓機器翻譯系統像人一樣,能夠進入一個真實的應用場景,在一個更加開放的環境中摸爬滾打,充分利用未標註或弱標註資料,透過一些間接的方式獲得反饋資訊。

這類似於開放環境下的 Atari 智慧體。BERT的成功,恰恰是代表了這樣一種趨勢。所以我們應該把關注點從有限的標註資料轉移到更加海量的未標註資料上,從而來進一步擴大機器翻譯系統獲取知識的能力。

2 是否存在第四代機器翻譯?

朱靖波:大道理大家都懂,我提一個大家可能不贊同的觀點,請大家來反駁我。

現在機器翻譯經歷了規則方法、統計方法和神經網路方法,那麼是否存在第四代機器翻譯呢?在我看來,第四代機器翻譯是不存在的。

理由是,在規則時代,只要規則沒有覆蓋的句子,我們就翻譯不了,當時大家寫規則的工作舉步維艱。

當統計機器翻譯出來後,只要語料覆蓋到,就沒有不可翻譯的句子;不過這個時候,機器翻譯是把句子拆成一個個單詞,並不連貫,這是它技術本身存在的缺陷,因此簡單句子翻譯得還行,但稍微複雜一些就完全無能為力了。

隨後谷歌基於神經網路得機器翻譯系統上線後,大家眼前一亮,整個譯文雖然並不非完美,但非常流暢。以中英文互譯為例,現在只要語料給得足夠,在同源領域中,機器翻譯系統的人工評價效果可以達到85%甚至90%以上。

那麼問題來了,如果存在第四代機器翻譯的話,效能應該達到多少?假設在某個領域中,資料量足夠大時,對某個語言對來說,如果將目前最好的訓練方法應用於最優的神經機器翻譯技術,人工評價完全有可能達到 90%。

那麼,下一代機器翻譯技術應該將這一數字提升到多少呢?如果在做出很大的努力後,第四代機器翻譯技術相較於第三代機器翻譯僅僅將效能提升了 1-2 個百分點,這顯然是不合理的‘。

目前,在相同的條件下,神經機器翻譯相較於統計機器翻譯可以將效能提升 10-20 個百分點。在效能指標達到 90% 後,如果進一步提升 1-2 個百分點是否能夠被稱為第四代機器翻譯?因此,在我看來,將來不可能出現第四代的機器翻譯技術。不知道大家是否贊同這個觀點。

張民:我和朱老師的意見並不一致。首先,從哲學的角度來講,第四代機器翻譯肯定是存在的。

第二,從技術的角度來說,第四代機器翻譯也是存在的。正如朱老師所說,從 90 年代至今,機器翻譯技術經歷了近 30 年的發展。2010年前後,大家普遍認為機器翻譯的效果不理想。但是神經機器翻譯的出現大大提升了機器翻譯效能,扭轉了很多人對機器翻譯前景的看法。

此外,神經機器翻譯剛出現的時候,許多研究者都持反對意見。後來越來越多的人逐漸接受了神經機器翻譯,所以人們接受新鮮事物往往有一個過程。

類比地看,在神經機器翻譯出現之前,沒有人想到它的效能會如此之好,因此我們也不能確定未來不會出現超越神經機器翻譯的技術。

朱老師說從翻譯的效果來看,效能已經達到了80%-90%。但是如果從機器翻譯技術本身出發,還存在許多有待解決的問題(例如,篇章分析、背景知識、語料領域等)。在人民日報等訓練語料一致且規範的情況下,模型的 BLEU 得分也許可以達到50%左右。但是在其它的領域中(例如,專利機器翻譯),可能 BLEU 得分甚至低於 10%-20%。

目前仍然存在一些僅憑神經機器翻譯技術無法解決的問題(例如,上下文指代、術語解釋、一詞多義等),或者需要背景知識才能解決的問題。拋開第四代機器翻譯技術不談,我認為機器翻譯技術瓶頸和資料瓶頸是否存在還是值得思考的。

在使用現有的機器翻譯模型時,即使我們擁有規模達到 10 億、100 億條記錄的語料,有些技術仍然無法解決。這是因為,這些模型的設計者本身沒有從解決上述問題的角度去思考,仍然停留在 Transformer 模型的層面上。也許,再過 10-20 年,會有新的能夠解決上述問題的新技術出現。

我認為,深度學習目前在自然語言處理領域中最成功的應用場景就是機器翻譯或語音識別。機器翻譯和語音識別如今的成功可能是許多人未曾預見的,但是其成功極大地依賴於充足的語料,並且需要本領域的語料十分充分。

而且,即使在本領域語料充分的情況下,還存在許多有待解決的 NLP 問題(例如,漢語的零指代問題、省略問題,以及需要背景知識才能解決問題)。

因此,目前機器翻譯裡面還存在大量的技術難題有待解決。許多研究者都認為下一代機器翻譯是知識驅動的,但如何獲取、表達知識還存在很大的研究空間。

朱靖波:我與張民老師的意見相左。我的意思是,第一代、第二代、第三代機器翻譯相當於是一棵樹的主幹。就好比第一代基於規則的機器翻譯是根,然後發展出以統計機器翻譯、神經機器翻譯為主幹的第二代、第三代機器翻譯技術。

張民老師認為目前機器翻譯還存在大量有待解決的問題(例如,篇章級分析、零指代、省略),但我認為它們只是將現有的技術應用到不同的場景下,延伸出一些新的技術新的解決方案而已,並不涉及解決機器翻譯的根本的問題。我也同意將來會在這些主幹上會生出很多枝節的觀點。

至於大家提到的基於知識的機器翻譯,我認為大家需要思考究竟需不需要「知識」,需要怎樣的知識?

我並不認為引入知識的機器翻譯就是第四代機器翻譯,如今大家也用到了句法、語義等領域知識,可能未來還會引入更多的知識,但是在我看來這些工作也都是現有「主幹」技術上延伸出來的「枝幹」,使得機器翻譯之樹更加茂盛,讓機器翻譯技術能夠適用於更多的應用場景。

而我所指的第四代機器翻譯是指出現新的主幹技術。

張民:我認為目前的神經機器翻譯技術無法解決剛才我們提到的這些問題,所以第四代機器翻譯技術必然會出現,但究竟新一代的機器翻譯技術是怎樣的,仍然是一個尚不明確的問題。

劉群:我認為拘泥於機器翻譯技術處於「第幾代」的意義並不是太大。我相信未來機器翻譯技術還是會取得重大突破,剛才大家提到的各種問題還是存在的。

本質上,這些問題可以歸納為資料問題,或長尾分佈問題。當資料量很小時,現在的機器翻譯技術的效能一般來說還是要弱於人類的能力。

人可能不需要用大量語料就可以學會新的語言,但是機器目前來說還不具備這種能力。所以研發基於小資料的機器翻譯技術是一個涉及到技術本質的問題,並不僅僅是「主幹」和「枝幹」的關係這麼簡單。

目前,在資料量十分充分的情況下,機器翻譯技術的效能已經較為理想了,但是在資料量不夠的情況下還是存在諸多挑戰。因此,我認為未來還是會出現下一代機器翻譯技術。

下面我們討論下一代機器翻譯技術是否是基於知識的,以及是否仍然處於神經網路的學習框架之下。

首先,目前對於「知識」尚無一個明確的定義。如果要說第四代機器翻譯是基於人工編寫的知識、知識圖譜或者規則這樣的「知識」,那我並不認為這可以被稱之為第四代機器翻譯技術。但如果我們將「知識」的概念擴大,那也許是成立的,在這裡我也無法對第四代機器翻譯技術給出一個明確的定義。

此外,我認為下一代機器翻譯技術可能還是以神經網路為基礎的。我認為在 NLP 領域中,基於神經網路的紅利並沒有被挖盡,目前神經網路的主要框架已經非常優秀,但是仍然可以對其進行很多的改進。例如,近年來比較火熱的預訓練語言模型(例如,BERT、ELMO 等)橫空出世,解決了很多 NLP 問題。

我相信,在神經網路的框架下有可能出現第四代機器翻譯技術,但是它與現在的機器翻譯技術還是存在很大差別的。對於資料驅動的模型來說,我們也許永遠無法解決資料稀疏的問題,但是我們可以更有效地利用資料,充分挖掘有限的資料,得到比現在的模型好得多的效果。

劉洋:我覺得剛才朱老師提的這個問題特別有意思。上世紀90年代,有研究者證明,兩層的神經網路相當於一種萬能的函式模擬器。而我們現在所研發的模型並不是萬能的,其輸出端是一個機率分佈。

我曾經做過一個小實驗,在一個神經網路後面新增上覆雜的數學變換(例如,取模、取正弦值等操作),並且提供大規模的訓練資料。實驗結果表明,這種轉換能達到 99.9% 的效能。

正如朱老師所說,在給定幾乎無限的訓練資料時,我們的模型能取得非常好的效能。但是,當下的機器翻譯模型是用一個非常複雜的非線性函式來實現從源語言到目標語言的對映,然後我們向模型提供大量的「輸入-輸出」對,來訓練該模型。在這個過程中,存在著許多有待解決的問題。

首先,自然語言的對映本身可能是高度複雜的。第二,我們如果想透過神經網路完全模擬這種高度複雜的對映,需要多大的資料量?目前,我們可能針對某個語言對可以提供上億條訓練資料,但是效能仍然達不到 100%。

我贊成張民老師和劉群老師的觀點,未來還是存在很多值得探究的問題。我認為,我們不要侷限在機器翻譯問題本身來思考機器翻譯問題,應該用更廣闊的眼光將機器翻譯放到整個人工智慧研究的大背景下來思考。

機器翻譯問題並不是孤立的,它涉及到許多整個人工智慧研究領域中的共性問題,未來的大趨勢應該是很多自然語言處理任務整合在一起,共同來完成一些目標。

BERT 為我們帶來的一個很大的啟示是,很多的自然語言任務之間是存在共同性的。我猜想,未來我們可能會設計出一種智慧體,它具有綜合的語言能力,可能會利用另外一個 NLP 任務,甚至是影像領域的任務,幫助機器翻譯取得更好的效能。我們不應該將未來有待解決的問題簡單定義為文字級的對映(例如,語句或篇章)。

張民:劉洋老師的觀點給了我很大的啟發。我們不妨跳出對機器翻譯技術的討論,思考翻譯任務本身的過程。

我們最終需要解決的還是翻譯問題,翻譯本身涉及到藝術創作和再加工。以前,我經常每天晚上給我女兒讀童話,常常會想到 NLP 的語言理解問題,思考能否用另一種語言翻譯這些童話。我認為,翻譯金庸小說、紅樓夢、錢鍾書的圍城等國內外名著,甚至古詩詞等包含深刻意境的文字,遠遠不是簡單的對映這麼簡單。

翻譯任務中存在大量需要藝術加工的問題。紐約時報曾經有篇報導,一名記者請專家們就「機器翻譯是數學問題還是藝術問題」這一觀點發表看法。從人類社會的角度來看,這一定是一個藝術問題,而不是一個數學問題。

因此,無論使用多麼複雜的函式,我們都不可能透過計算機方法完美地對機器翻譯問題進行建模。即使未來使用了效能強大的量子計算機,由於機器翻譯不是一個純粹的演算法問題,所以它仍然是不可解的,我們只能試圖無限地逼近最優的解。

李沐:在人工智慧領域中,「AI 完全」問題是一個其被長時間討論的話題(對應於演算法中的 NP 完全問題)。有很多智慧化問題並不是僅僅利用某一個領域的演算法和知識就可以完全解決的,它需要動用人的全部智慧。這些智慧包括聽覺、視覺等感知能力,以及無法很好定義的世界知識和推理能力。

之前大家討論的很多機器翻譯中的問題也都涉及到完全發散的世界知識和推理。例如,如何翻譯金庸的小說?各種武俠招式要不要翻譯?還有一些問題需要進行推理(例如,指代問題、前後呼應的分類問題),人類的碳基智慧可以解決這些推理問題。

對於電腦這種矽基智慧而言,最近許多研究者們都在討論 GPT-3 的論文,我們可以認為 GPT-3 等神經網路模型具有強大的記憶功能,可以將無數的文字都記憶下來。所謂無監督學習就是透過一些「黑盒」的方法記憶大量文字貢獻的知識,但是現代神經網路所謂的「推理」能力本質上還是各種各樣的模式匹配,缺乏和人類智慧相媲美推理能力。

目前尚不可知「AI 完全」問題或者機器推理能力這一終極目標是否能夠實現,目前來看還十分遙遠。

從計算機視覺領域來看,剛回國的朱松純教授就強調需要考慮在計算機視覺領域中如何提高機器的思考能力,而不僅僅是使用 CNN、模式匹配技術。我們還不知道要過多久才能實現這個目標,而這也正是技術突破的魅力所在,學術研究需要有這種堅持的信仰。

學術研究與產品落地是有區別的。產品落地需要考慮到短期的投資回報。但是如果以這種態度去做學術,是無法將學術做好的。如果由於研究上遇到的阻力而放棄,也就無法親身經歷技術突破、開花結果的時刻了。

在技術發展的長河中,需要解決許多的小問題。有時也許因為有人提出了一個新的廣闊的研究領域而導致技術發展的快一些,會吸引許多研究人員參與到該領域中。

但技術發展往往也會經歷緩慢前進的時期。以語音處理技術為例,它的瓶頸期其實比機器翻譯的瓶頸期還要長,曾經在幾十年的時間內基本沒有大的突破。但是在過去的十年間,人們將深度學習技術引入語音處理之後,該領域又得到了長足的進步。

科技研究令人著迷的地方在於,我們無法準確預測下一個突破的爆點何時到來,但我們可以選擇相信它一定會到來!在學術研究中遇到難以解決的問題是常態,我們不可能永遠處於「快速奔跑」的狀態。

當前這波由深度學習引起的人工智慧發展浪潮,本質上是受益於算力快速增長的紅利,實際上神經網路演算法、反向傳播演算法等技術在很久以前就誕生了。Jürgen Schmidhuber 等人上世紀 90 年代就發明了 LSTM 演算法,但是距離該演算法被廣泛應用還有一段距離。

從長期來看,學術研究大部分時間都會處於「瓶頸」期。再以物理學為例,上世紀初是物理學得到了蓬勃的發展,但是近 50 年來卻鮮有重大突破,即使是「引力波」也曾被愛因斯坦 100 年前成功預測。從長期來看,朱老師提出的問題都是「AI 完全」問題。

塗兆鵬:綜上所述,在朱老師看來,機器翻譯本身還存在很多有待解決的問題,包括篇章分析、面對低資源的領域和語言對時的機器翻譯問題等。第二,我們不應該獨立地看待機器翻譯問題,它是一個在自然語言處理領域中集大成的場景,需要從更加綜合的角度,甚至是通用人工智慧的角度來考慮機器翻譯。各位老師都認為,技術發展往往會遇到增長緩慢的平臺期,學術研究貴在堅持,靜待風口的到來。

3 自然語言處理的可解釋性研究之爭

朱靖波:現在許多人都認為神經機器翻譯的可解釋性很差,是一種「黑盒」模型。於是大量的研究者開始嘗試進行可解釋性的研究,希望理解神經機器翻譯的一些機理,以至於在將來有機會取得更大的技術突破。

那麼,我想提出的問題是「究竟應該從揭示機器翻譯模型的數學推理過程的角度研究可解釋性,還是從人類對模型結果的理解的角度研究可解釋性」?

現在有很多研究人員在進行智慧司法方面的研究。假設你現在是一個法官,如果利用基於神經網路的方式,可以將掌握的證據作為輸入,判斷嫌疑人是否有罪。

即使神經網路的精度達到了99%,但是對於嫌疑人來說,他們可能更加關注模型的可解釋性,即做出判決的法律依據。

因此,在研究可解釋性的過程中,我們究竟應該研究做判決的 AI 系統的推導過程(例如,對注意力機制、引數的學習過程),還是研究判決究竟是依據怎樣的法律條款做出的判決,以及如何進行修正。

劉群:現在研究人員關注的主要是如何提升 BLEU 值,如果大家的研究中心轉變到可解釋性上來,那麼可解釋性的問題自然就會被慢慢解決。

至於朱老師關心的法律判決的推導過程,我認為訓練資料中是存在法律條款的,可以透過技術手段找出原始資料中對應的法律依據。

朱靖波:我並不贊同劉老師的觀點,訓練資料中可能是一些證據,而不一定包含法律條款。

劉群:我認為肯定還是要基於依據法律條款才能做出判斷,BERT 等模型中實際上也是暗含著語法的。

朱靖波:我們現在討論的問題是,如果想要研究機器翻譯的可解釋性,應該從哪裡去研究什麼樣的可解釋性?以研究基於深度學習的判案系統的可解釋性為例,我們應該研究它推理過程的可解釋性,還是應該從人的角度去理解嫌疑犯違反了哪些法律?

因為有的深度學習模型本身可能並不是按照中國法律做出判斷的,它們純粹是資料驅動(即使用嫌疑人的證據)的方法。同理,在神經機器翻譯系統中,如果僅憑資料驅動,即使可以得出效果尚可的翻譯結果,但是機器翻譯模型仍然沒有理解得出結果的原因。我想問,可解釋性是不是與按照語法語義的知識進行理解相關。

劉洋:我認為,對於不同的領域和問題而言,對其可解釋性的研究具有很大的差異。例如,在自動駕駛、根據 CT 影像診斷癌症,或者做出法律判決等場景下,我們做出的決策是生死攸關的。

此外,在機器翻譯等場景下,出現小的錯誤並不是會招致很嚴重的後果。因此,在決策會產生重大實際影響的場景下,對可解釋性的研究是更為重要的。至於在機器翻譯場景下,我更加贊同劉群老師的觀點,此時我們更加關心的是機器翻譯的 BLEU 值。

實際上有很多種對可解釋性的定義方法:(1)可解釋性指的是在後處理階段對模型的預測過程進行分析。(2)模型本身是可解釋的,與統計機器翻譯類似,每一個結構都是可以看到的。

這兩個方向都吸引了研究者們的研究興趣,相較之下可能更多人傾向於設計出本身可解釋的模型。正如以前的統計機器翻譯,分析短語對齊和切分,如果翻譯結果有誤,就可以直接定位到模型中出錯的位置。但是現在的神經機器翻譯模型是無法做到這一點的。

劉群:劉洋老師的劃分很有道理。對於法律判案、自動駕駛這一類問題的可解釋性是可以實現的,透過一些事後分析的手段我們可以得出推理鏈條,只不過現在關注這方面工作的研究人員還較少。

如果一定要強制性地設計出可解釋的模型,是十分困難的。人類做決策的過程有時也不完全是一個嚴謹的推理過程,人在完成翻譯、語音識別等任務時往往也會受直覺的引導,會受到很多因素的影響。其中,有些因素可能是合理的,而有些因素也可能是不合理的,需要進一步改進。

如果我們希望模型本身完全可解釋,那就回到了最初的形式化推理的模型,這與現在的神經機器翻譯技術是不同的。

所以,我認為還是應該要先關注提升模型效能,然後再反過來還原出推理過程。這與數學家推導數學定理的過程是類似的,數學家往往會先想出一個定理,然後對其進行推導。人的直覺往往不涉及嚴謹的推理過程,並不是每一個步驟都是可解釋的。我認為沒有必要攻擊神經機器翻譯的「不可解釋」現象。

張民:我認為神經機器翻譯模型的不可解釋性是一個亟待解決的問題。神經機器翻譯的效果有時存在很大的波動性,我們希望知道造成翻譯結果較差的原因是什麼,從而進行修正。

因此,我希望機器翻譯系統具備可解釋性。此外,人是一種理性的動物,最好能夠澄清人做決策的原因。第三,將目前的神經機器翻譯系統設計成可解釋的形式是十分困難的。

許多網友會使用以下幾個概念來評價當下機器翻譯或深度學習的研究:(1)軍備競賽,BERT 等模型需要使用海量的資料。我們不應該追求這種「軍備競賽」,而應該實現進行「軍備競賽」的能力。(2)鸚鵡學舌,目前機器翻譯模型能夠得到較好的翻譯結果,但尚不明確翻譯的依據。(3)不可解釋,我們希望解釋得到機器翻譯結果的原因是什麼,從而對模型進行改進。

劉群:當我們發現翻譯錯誤時,由於翻譯模型是我們設計的,資料也是可見的,我們可以從資料出發逐步進行推導,肯定是可以定位錯誤原因的。因此從理論上說,翻譯的過程是可解釋的,只不過推導的過程往往較長。

張民:但是如果資料包含 100 億條記錄,無論使用多少人力,都不太可能回溯到錯誤發生的地方。

劉群:這就要看我們從哪個粒度上來看待可解釋性了。

張民:針對存在翻譯錯誤的句子,我們希望能夠迅速定位到機器翻譯模型出錯的地方。

劉群:以數學定理證明為例,存在一些證明過程是這樣的:全世界沒有一位數學家能夠看懂證明的全流程,但是將證明過程拆分開來,每一個部分都有一些數學家可以看懂,那麼大家認為這是一種可解釋性嗎?

從某種程度上來說,我們可以做到讓人更容易理解模型輸出(例如,哪個地方的對齊工作出現了錯誤)。

朱靖波:張民老師的意思是能不能從人能夠理解的角度說明翻譯的結果為何出錯,進而對其進行修改。

當然,從機器智慧的角度來說,肯定是存在一個機器能夠理解的推理過程,但是人無法理解這個過程。所以,我認為這是兩種不同的智慧,取決於我們究竟需要面向機器智慧的解釋,還是面向人類理解的解釋。

劉群:我認為過分追求可解釋性的意義並不大,我們總是可以想出一些辦法來解釋我們的模型及其輸出,只不過現在從事這方面工作的人還不多。

劉洋:當我們分析譯文錯誤時,由於神經網路內部各個層儲存的全都是數字、向量、矩陣,所以定位決策過程中的錯誤是比較困難的。所以我們團隊在 2017 年發表了相關的論文,嘗試透過關聯度的變化分析各個層對譯文的影響,但確實是一項比較難的工作。

除了可解釋性之外,我認為可控性也很重要。可控性指的是,我們希望讓神經網路按照人指定的方式工作,劉群老師之前在約束解碼方面也做出了一系列很好的工作。

張民老師的觀點也很重要,我們關注可解釋性的更重要的目的是,透過分析觀察現有模型缺點,指導我們設計出新的架構。三年以來,還沒有出現比 Transformer 更好的架構。如果我們能夠更好地理解現有模型,也許能夠啟發我們設計出更好的架構。

劉群:我也是很主張觀察資料的,希望能夠理解機器翻譯的過程。但是現代的神經機器翻譯系統與規則系統是不同的,我們也無法像統計機器翻譯時代一樣,加入某個短語就可以解決某種錯誤。

對神經機器翻譯模型而言,提供可解釋性對改進模型的指導意義是十分有限的。我們更多地可能還是在比較高的層次上考慮模型設計的是否合理,並不是針對某些翻譯錯誤為模型打上補丁。

朱靖波:在基於規則的機器翻譯和統計機器翻譯時代,一旦發現翻譯錯誤,我們可以相對清晰地追溯到造成翻譯錯誤的原因,並且可以採取相應的辦法進行干預。但是神經機器翻譯技術在這方面的能力就要較弱。

張民:此外,我還想指出,機器翻譯的結果在某些場合下也十分關鍵。例如,在電商場景下,如果我們將價格翻譯錯誤,或者將貨幣單位翻譯錯誤會招致比較嚴重的後果。

4 觀眾問答環節

Q1:如何加入先驗知識,引入外部知識或融合專業術語是不是一種途徑?

劉群:現在有很多研究者在研究專業術語的融合。在工業界,我們有各種各樣的辦法解決引入先驗知識的問題,我認為加入專業術語是可行的。

朱靖波:加入術語是相對容易的,但是加入其它知識就稍微困難一些。首先,我們要合理、高質量地獲取知識;此外,還需要考慮如何有效地加入知識,因為加入知識相當於對整個搜尋空間和推理的解碼空間都進行了約束,這樣也許會引發一些新的問題。

正如劉群老師所說,現在有很多研究者在研究如何引入先驗知識,提出了各種各樣的方法(例如,引入知識圖譜)。但是「如何實現知識的高精度自動獲取」、「如何在引入知識時不降低模型推理的效能」、「如何不造成新的錯誤」,還是有待探索的。

劉洋:2016年前後,人們對這個問題的關注度還是很高的,也提出了多種解決方案。這些方案大體上可以分為:模型建模時加入知識,在訓練階段加入知識,在解碼階段加入知識。

我認為關鍵的問題並不在於如何加入先驗知識,而是加入先驗知識後是否有積極作用。有時加入的外部知識可能會被資料本身抵消掉,我們需要研究哪些知識對於資料而言是互補性比較強的。當然,在一些垂直領域中加入先驗知識肯定還是有用的。

Q2:有沒有可能現在已經出現了一些能超過 Transformer 的模型,但是這種WMT資料加上 BLEU 值的評測手段不能體現出其優勢,未來應該設計怎樣的評測手段,從而更好地推動機器翻譯的發展?

李沐:我認為目前還沒有針對這個問題的標準答案。現在在NLP領域中,基本上還是 Transformer 模型一統江湖。

而「評測手段不完美」實際上是老生常談了,雖然 BLEU 值不夠完美,但是我認為,現在研究人員仍然沒有提出一種能夠全面超越 BLEU 的自動評測標準。在開發新型評測手段方面,需要探索的路還很長。翻譯本身就沒有標準答案,錯誤型別也不是非黑即白、可以被明確分類的。

劉群:我不贊成李沐老師的觀點,WMT 的 Metrics 賽道中許多評測方式都已經超越 BLEU 值了,可能大家使用 BLEU 還是出於對方便性的考慮。

李沐:劉群老師說的是學術上的情況,但是我們做過評測,工業應用場景下沒有一種評測方式能全面超過 BLEU 的。可能有些評測方式在某一個指標上超越了 BLEU,但是在大規模資料場景下全面超越 BLEU 還是非常困難。這不只是方便的問題,從魯棒性上來說,其它的評測手段還是不如 BLEU,當資料量很大時,其它指標的魯棒性會急速下降。

劉群:WMT 的 Metrics 賽道中大部分的評測手段都比 BLEU 好,如果有新的需求,我們自己也可以定義一種新的評測手段,在 WMT 上提出一種新的任務。

Q3:非常認同張民老師認為「翻譯是再創造過程」的觀點,其實從規則到神經的個時代,一直有些工作想嘗試問鼎「信、達、雅」中雅的標準,但是感覺進展甚微。請問這方面的工作何時會有一個實質性的進展。

劉群:我認為是沒有必要的,藝術問題可能不是技術能解決的。

朱靖波:我同意劉群老師的看法,我覺得目前機器翻譯能做到「信」就已經很不錯了。這個問題與學術界目前普遍所關注的問題可能不在同一個維度上,這方面的討論還比較少,但我也同意以後的機器翻譯技術可以追求一些更高的目標。

劉群:此外,不同人對於「雅」的標準也不好統一。

朱靖波:僅憑資料驅動的方法可能很難解決這個問題。實際對於人而言,除了經驗豐富的老專家,想做到「雅」也是很難的,需要譯者具備大量的歷史知識、文學修養。要達到這個目標我們首先要學習出一個文學的理解系統,再將其與機器翻譯系統相結合。因此,目前機器翻譯可能還停留在追求「信」的級別上。

Q4:如果我們發現模型對某些句子的某幾個單詞或短語產生了翻譯錯誤,應該從哪個角度下手修正這些錯誤?

劉群:這需要具體問題具體分析。首先,需要檢查使用的資料,一般資料中是存在錯誤的。當然,有些問題是目前解決不了的。例如,一詞多義的情況如今仍然是機器翻譯系統面臨的巨大挑戰。如果上下文中沒有對該詞詞義的準確提示,機器翻譯出現錯誤的可能性還是很高的。

因此,語料庫越大越好。如果語料庫越大,各種詞之間的搭配就越多,機器翻譯犯的錯誤就越少。在我看來,如今最難處理的翻譯錯誤還是由於一詞多義造成的錯誤。

朱靖波:其實機器翻譯系統一般肯定會出現很多類似的錯誤,我們往往也不會讓模型進行修正,這是很難做到的。我們可能會在前處理、後處理的過程中採取各種各樣的措施修正翻譯結果,也可能會運用一些新的工程手法。如果這個錯誤是一個很高頻出現的問題,那肯定還是要想辦法解決的。

Q5:想問一下工業級的神經機器翻譯(NMT)技術是怎麼修正已知的翻譯錯誤的?

朱靖波:工業界中最常見的還是資料長尾分佈的問題,解決已知翻譯錯誤的方式需要嘗試各種各樣的工程手段,需要不斷打磨。真正想做一套能用的商務系統,需要三個要素:首先,使用先進的技術。第二,大量的訓練資料資源作為支撐。第三,也是最重要一點,就是需要在各個環節經過長時間的錯誤驅動的反覆打磨。當然,也還有很多錯誤目前無法改正。

Q6:如果語音轉文字之後再翻譯還會涉及到許多非語言因素,比如說話人的表情,語音語調等因素,能否將它們輸入神經網路,如何量化這些因素?

劉洋:我個人認為目前這個方向的研究好像並不是特別多,但這種研究應該是可以進行的。神經網路的方法其實就是把任何資料向量化,你可以將表情因素向量化,但這也需要我們有新的標註資料。

劉群:我認為引入表情因素涉及到計算機視覺,可能相對而言更困難一些。語音語調相關的研究近年來也在逐漸增多。現在人們研究較多的是端到端的語音到文字的機器翻譯。這種翻譯任務目前面臨的最大的問題還是資料問題,我們往往不可能擁有大量的語音資料,我們也可以利用一些文字到文字的翻譯資料。端到端的系統具有結構上的優勢,語音資料中包含停頓、聲調等資訊,如果想要實現語音到語音的端到端翻譯,可以利用上這些資訊。

語音的翻譯是一個很有前景研究方向,受到人們越來越多的關注。今年百度辦了一個研討會,我應邀作了一個報告,明年我們還會舉辦這個研討會,探討與語音同步的機器翻譯問題。

Q7:機器翻譯是否一定追求完全忠實於原文,如果翻譯結果與原文語義一致或者接近是否也可以?比如在溝通交流的場景下,口譯員也做了很多的資訊壓縮抽取工作。

李沐:這是一個應用問題,該問題的答案完全取決於使用者對應用的定義如何。如果使用者認為我們只需要知道基本含義,可以接受不忠實於原文,就可以這麼做。從文字摘要到機器翻譯的整個技術鏈條上並沒有特別大的難度。

朱靖波:我同意李沐老師的觀點,該問題要取決於使用者的需求。

劉群:在翻譯很多標識語時,我們往往不可能完全按照字面意思翻譯。我們的目標是將原文想傳遞的資訊傳達給受眾即可。例如,草地上立著一個標語——「小草會疼」,我們只要表達出讓行人不要踩踏草地的意思就可以了。

朱靖波:口譯員如果不做資訊壓縮的話就沒有辦法跟得上整個翻譯的過程,這取決於具體的需求和應用場景。

Q8:預訓練的機器翻譯未來將如何發展?如何融入更多於語義知識?

劉群:實際上,目前預訓練對機器翻譯的幫助並不太大,它對其它的NLP任務的幫助更大。這是因為,機器翻譯的資料量已經足夠大,因此預訓練對機器翻譯任務的提升不如對其它任務的提升那樣大。

此外,「究竟引入怎樣的知識是有用的」、「如何引入知識」等問題還有待探究。儘管透過知識圖譜或人工構建的規則引入知識是有用的,我自己也在做這方面的研究,但其實我並不太喜歡這樣做。工業領域對引入人工構建的規則有所需求,在機器翻譯、對話系統等場景下都是如此。如何將這些規則應用在神經網路中還是十分有趣的,但這是一個更加偏向於應用的研究,學術價值相對有限。

現在的 NLP模型學到的都是字面的關係,而無法學到更深層次的關係。例如,現在的 NLP 模型無法學習辨別數字的大小,它們不能學習到「56 比 32 大」這樣的關係。我相信,今後我們需要將這種更深層的知識引入到 NLP 系統中,目前還沒有很自然地和 Transformer 等模型結合的很好的方法。這個研究方向具有廣闊的前景,但是尚無非常好的工作。






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2731095/,如需轉載,請註明出處,否則將追究法律責任。

相關文章