“嘿,機器,你是怎麼做好翻譯的呀?” “來,我畫給你看!”

PaperWeekly發表於2017-06-29

論文作者 | 丁延卓、劉洋、欒煥博、孫茂松(清華大學)

特約記者 | 吳酈軍(中山大學)

如果有一個功能神奇的“黑箱子”,你想不想開啟它,好好研究一番?神經機器翻譯就是這麼一個“黑盒”,只要給它一句中文,就能將對應的英文順利地翻譯出來,如何才能一探其中的究竟呢?清華大學的丁延卓同學、劉洋老師、欒煥博老師和孫茂松老師在今年 ACL2017 上的工作就將這其中的奧祕“畫給你看”。

近年來,深度學習快速發展,神經機器翻譯(Neural Machine Translation)方法已經取得了比傳統的統計機器翻譯(Statistical Machine Translation)更為準確的翻譯結果。可是,深度學習這樣的複雜而又龐大的網路模型,就像一個摸不清的“黑箱子”,網路中只有浮點數的傳遞,到底背後包含著怎樣的語義、邏輯,一直困擾著研究人員對於神經機器翻譯的深入理解和分析。因此,如果能夠將網路視覺化,找到網路中神經元之間的相關關係,將極大幫助人們探究神經機器翻譯中出現的各類錯誤,同時也能幫助指導如何除錯更好的模型。

而就在今年的 ACL2017 上,清華大學的丁延卓同學、劉洋老師、欒煥博老師和孫茂松老師發表了論文“Visualizing and Understanding Neural Machine Translation”,借鑑視覺領域中的研究,首次將計算機視覺中 layer-wise relevance propagation(LRP)的方法引入到神經機器翻譯中,為注意力機制(attention mechanism)的編碼-解碼(encoder-decoder)神經機器翻譯模型提供了視覺化以及可解釋性的可能。通過分析層與層之間的相關性,將這些關係“畫”了出來。“據我們所知,目前還沒有工作是在神經機器翻譯模型的視覺化上。”作者告訴我們,現有的注意力機制被限制在只能證明源語言(source language)和目標語言(target language)之間存在關係,卻不能提供更多的資訊來幫助瞭解目標語言的詞語是如何一步一步生成的;而相關性分析則能夠幫助理解這個過程,並且能夠分析任意神經元之間的關係。

Layer-wise relevance propagation(LRP)的方法到底是什麼呢?其實就是一個計算相關性,並將相關性逐層向後傳播的過程。首先將網路模型看成一個拓撲圖結構,在計算一個節點 a 和輸入的節點之間的相關性時,將 a 點的數值作為相關性,並且計算與 a 點相連的上一層節點在生成 a 點時所佔的權重,將 a 的相關性逐層向後傳播,直到輸入層。作者用下圖的例子告訴了我們:

“嘿,機器,你是怎麼做好翻譯的呀?” “來,我畫給你看!”

▲ 圖1:Layer-wise Relevance Propagation 示例

如果要計算 v1 和 u1 之間的相關性,首先計算 v1 和 z1, z2 之間的相關性,再將 v1 和z1, z2 的相關性傳遞到 u1, 從而求得 v1 和 u1 之間的相關性。

通過這樣的計算,我們最終能“畫”出怎樣的相關性呢?讓我們來幾個例子(顏色越深表示相關性越強):

“嘿,機器,你是怎麼做好翻譯的呀?” “來,我畫給你看!”

▲ 圖2:目標語言單詞"visit"對應的隱變數視覺化圖

“嘿,機器,你是怎麼做好翻譯的呀?” “來,我畫給你看!”

▲ 圖3:錯誤分析:不相關詞語"forge"與源句子完全不相關

圖 2 是在翻譯“我參拜是為了祈求”時中間的隱層 c2, s2 以及輸出層 y2 和輸入句子詞語之間的相關性,可以看到“visit”這個詞語正確的和“參拜”以及“my”的相關性更為強烈,因而正確的翻譯出了詞語“visit”;而圖 3 則表明“forge”(鍛造)這個詞語的隱層 c9, s9 和輸入的詞語都沒有正確的相關性並且跳躍,而在生成時 y9 也沒有和輸入有正確的相關性。

“通過對翻譯中出現的不同錯誤的相關性的視覺化的觀察,我們的方法能夠幫助模型進行改造和更好的除錯。”作者告訴我們,在將 LRP 的方法引入時其實也遇到了一些難點,比如影象領域只是輸入影象畫素點,而機器翻譯中則是一串詞語,每個詞語都對應著一個長度或百或千的向量,對於計算相關性造成了困難;同時模型複雜,包含各種不同的計算運算元。而通過仔細地設計計算方法以及 GPU 的利用,也將困難一個個克服了。

“未來,我們希望將方法用於更多不同的神經機器翻譯模型中,另外也希望構建基於相關性分析的更好的神經機器翻譯模型。”對於未來的研究工作,他們也更為期待。

歡迎點選檢視論文:

關於中國中文資訊學會青工委

中國中文資訊學會青年工作委員會是中國中文資訊學會的下屬學術組織,專門面向全國中文資訊處理領域的青年學者和學生開展工作。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報導人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


相關文章