監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

思源發表於2018-08-02

阿里機器翻譯團隊在本次比賽中,參加了英語到德語和德語到英語兩個語向的句子級別和詞級別的七項質量評估任務,收穫了六項世界冠軍。其中,德語到英語的統計機器翻譯評估任務中(German-English SMT),句子級別和詞級別的預測任務分別取得第一名;英語到德語的統計機器翻譯評估任務中 (English-German SMT),句子級別取得第一名,詞級別的詞預測和漏詞預測分別取得第一名。同時,英語到德語的神經網路機器翻譯評估任務中 (English-German NMT),詞級別的詞預測取得第一名。

對於翻譯質量評測方法來說,可能讀者最熟悉的就是 BLEU 值,它的核心思想即機器翻譯的譯文越接近人類專業譯文,那麼翻譯的效果就越好。所以從本質上來說,BLEU 值僅僅只是在計算機翻譯文與參考譯文之間的相似性。此外,雖然 BLEU 值計算非常迅速,但它僅考慮詞語層級的統計相似性,常忽略了語義和語法等特徵。且其它如常用詞、譯文長度、同義詞等很多情況都會影響到 BLEU 值的評判,因此它其實只能評估機器翻譯模型與參考譯文之間的大致相似度。

計算 BLEU 值最重要的是提供參考譯文,參考譯文質量越高,對於同一句原文的參考譯文越多,翻譯模型的度量就越準確。但很多情況下高質量參考譯文很難獲得,或者成本非常高,而且更多的實際運用場景中,使用者輸入的原文是無法及時提供參考譯文的,這種情況下就需要一種沒有參考譯文也能評估翻譯效果的方法。

Machine Translation Quality Estimation 就是這樣一個由 WMT 發起的機器翻譯質量評估比賽,它要求在不提供參考譯文的情況下,根據原文和機器翻譯譯文評估譯文質量的好壞。

除了競賽,不需要參考譯文的評估方法在實際中有非常廣泛的應用,陳博興表示這種自動評估方法可以評估譯文的質量,用於判斷譯文是否可以直接發表,是否可以讓讀者理解,是否需要後續人工編輯,並輔助譯員翻譯。如果質量太差,那麼這一句話就需要重新翻譯且不適合做人工編輯,如果只需要少量改動,那就比較適合做人工編輯。甚至對於詞語級別的譯文評估方法,它能告訴我們到底哪一個詞需要改進。此外,限制質量較差的機器翻譯的譯文輸出、評估機器翻譯模型效果等都需要這種不需要參考譯文的評估方法。

翻譯質量評估

翻譯質量評估任務一般可分為兩種,即句子級的評估和單詞級的評估,阿里機器翻譯團隊這次參與的競賽同樣也分為這兩種任務。其中句子級的質量評估需要使用迴歸模型給譯文句子的整體水平打分,而單詞級的任務需要分類模型標註每一個詞到底翻譯得好不好。完成這兩種評估任務的方法也有許多,但總體上都是通過抽取原文與譯文的特徵,並計算它們之間的匹配程度。

以前常見的研究是使用手動抽取的質量評估特徵,並饋送到迴歸或分類模型以得出譯文的分數或類別。這些質量評估一般包括長度特徵、語言特徵和主題模型等特徵,它們可能還會通過主成分分析和高斯過程等方法進行選擇。

而自深度學習變得流行以來,很多研究者嘗試使用深度神經網路自動抽取質量評估特徵並完成評分。Kreutzer 等人首先在 2015 年提出基於視窗的 FNN 架構,它以視窗的方式抽取語義特徵。在基於視窗的方法中,給定目標詞,我們從原語和目標語的對應位置中獲取雙語視窗,其中目標語視窗的中心詞就是該目標詞,而原語視窗的中心詞即目標詞對應的原語詞。所有雙語視窗下的詞將會以 one-hot 編碼的方式饋送到輸入層,並進一步計算出當前視窗的雙語匹配程度。

Patel 等人隨後在 2016 年提出基於迴圈神經網路架構的質量評估模型,在該模型中,他們將單詞級的質量評估模型視為序列標註任務,且同樣採用了基於雙語上下文視窗的方法。其中上下文視窗的所有詞需要作為輸入,並藉助迴圈神經網路建模它們之間的依賴性關係,並最後輸出標註序列以判斷每個單詞是不是翻譯正確。

隨後很多研究者開始使用卷積神經網路、雙向 LSTM 網路和注意力機制深度學習方法,Martins 等人在 2017 年結合神經網路模型與富特徵線性模型在質量評估模型上獲得了非常好的效果。但阿里採用的模型並不基於上下文視窗,他們參考了最近提出的自注意力機制和 Transfomer 機器翻譯的模型框架,在前人研究的基礎上提出了一種名為『Bilingual Expert』model (『雙語專家』模型) 作為特徵抽取器,聯合基於神經網路的譯文質量評估框架。後面我們將從這兩方面重點關注這一框架,並探討阿里達摩院對它們的優化。

特徵抽取模型

特徵抽取即從原文與譯文語句中抽取足夠的資訊或特徵,並用來進一步計算譯文效果到底好不好。因此特徵抽取是翻譯評估模型的核心,特徵的好壞直接影響了翻譯評估的準確度。不過在理解特徵抽取以前,我們先要了解整個『Bilingual Expert』based Feature Extractor + Quality Estimator 框架,這樣才能知道為什麼能通過神經網路抽取原文和譯文的語言特徵。

『Bilingual Expert』based Feature Extractor + Quality Estimator 由特徵抽取模型和譯文評估模型組成,因為這兩個模型解決的是兩個任務,所以它們能使用兩種資料集進行訓練。特徵抽取模型在輸入原句序列和目標句序列的條件下抽取質量評估特徵,這一部分的訓練需要使用一般的雙語平行資料集。而特徵抽取模型抽取的特徵可繼續用於評估翻譯效果,這一部分需要使用質量評估(QE)資料集,該資料集不僅包括原句與譯文句,同時還包括了標註的翻譯質量。

監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

阿里達摩院在這次競賽中採用的結構,特徵抽取模型與評估模型使用 Transformer 與雙向 LSTM 的框架進行修正。

對於特徵抽取,『Bilingual Expert』(圖上右上框)模型構建了一種條件語言模型。簡單而言,在給定原語句子所有詞和目標語句除當前詞以外的上下文,模型希望能使用這些詞的資訊預測出當前詞。這一過程潛在的假設即條件語言模型與質量評估模型高度相關,它能傳遞有用的資訊來執行質量評估任務。陳博興表示,我們可以直觀地理解為,如果譯文的質量非常高,那麼這種基於條件語言模型的詞預測模型能基於原句子和目標句子的上下文準確預測出當前詞。相反如果譯文質量不高,那麼模型很難基於上下文準確地預測出當前詞。

給定原語句子和目標語句子的上下文,並預測目標語句子的當前詞可以表述為如下方程式,阿里機器翻譯團隊使用了在《Attention is all you need》中提出的 Transformer 建模這一方程。

監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

之所以將傳統的雙向 LSTM 模型替換為最近比較流行的 Transformer,陳博興表示:「LSTM 是以遞迴方式進行的,適合序列建模任務,需要逐步遞迴才能獲取全域性資訊。這就導致了計算過程很難並行,計算效率較低。因此我們採用了完全基於注意力機制的結構來處理序列模型的相關問題,這樣不僅能挖掘序列內部的隱藏關係,同時還能提高並行效率。」

儘管使用 Transformer 構建詞預測模型有更多的優勢,但從 LSTM 出發能更好地理解詞預測模型的過程。下圖所示為基於 LSTM 的詞預測模型,它期望能準確預測目標語句子中的第 j 個詞。

如下對於原語句子 x,模型首先將每一個詞都表徵為詞嵌入向量,然後再饋送到正向和反向兩條 LSTM,每一個時間步需要同時結合正向和反向 LSTM 的隱藏狀態並作為最終的輸出。對於目標語句子 y,在第 j 個詞之前的序列使用正向 LSTM 建模,而第 j 個詞之後的序列使用反向的 LSTM 建模。最後在預測第 j 個詞時,需要使用原語句子 x 的上下文向量 c_j(由注意力機制得出)、目標語前一個詞及前面序列的語義資訊、目標語後一個詞及後面序列的語義資訊。

監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

阿里機器翻譯團隊採用 Transformer 的架構進行建模,該架構不僅在原文和譯文端之間進行注意力機制的計算,同時原文和譯文內部也引入自注意力的機制,使得兩端深層的語義資訊能夠很好得被學習到。除此以外,『Multi-Head』注意力機制的結構能夠使網路中每一層對不同位置的計算是並行的,大大提高了學習效率。陳博興表示,在對原文進行編碼的過程中,編碼器由相同的兩個模組構成,每一個模組都有兩個子層級。其中第一個子層級是 Multi-Head 自注意機制,第二個子層級採用了全連線網路,其主要作用在於注意子層級的特徵。同時,每一個子層級都會新增殘差連線和層級歸一化。

在對目標端解碼的過程中,阿里機器翻譯團隊創新地進行了基於 Multi-head Attention 的雙向解碼。陳博興表示,每個方向的解碼器也由相同的兩個模組堆疊而成。與編碼器區別的是,每一個解碼器模組都有三個子層組成。第一個和第三個子層分別與編碼器的 Multi-Head 自注意力層和全連線層相同,而第二個子層採用了 Multi-Head Attention 機制,使用編碼器的輸出作為 Key 和 Value,使用解碼模組第一個子層的輸出作為 Query。與編碼器類似的是,每一個子層同樣會加上殘差連線與層級歸一化模組。該思想可以理解構造了一個雙向的 Transformer,而其真正作用不是翻譯系統中的解碼器,而更像一個編碼器或者特徵表示器。

監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

上圖所示為 Transformer 原論文中介紹的網路架構,阿里機器翻譯團隊將其採用為『雙語專家』條件語言模型的基礎網路。Transformer 編碼器的 Inputs 為原語句子序列 x,解碼器輸入的 Outputs 為目標語正向和逆向兩個序列。此外,解碼器中 Softmax 輸出的概率表示目標端當前詞預測。在阿里採用的架構中,編碼器和解碼器的層數都等於 2,即圖中的 N=2。

每一次在預測目標語的當前詞時,Transformer 需要使用正向與反向兩部分資訊。陳博興表示若當前預測目標語的第 j 個詞,對於正向序列而言,模型需要使用目標端第 j-1 個詞的前向深層語義特徵向量和第 j-1 個詞的詞向量。而對於反向序列而言,模型需要使用目標端第 j+1 個詞的反向深層語義特徵向量與第 j+1 個詞的詞向量。

總體而言,在阿里的模型中,利用預先訓練的專家模型,先抽取基於模型隱層的一些 high level 表示資訊,以及該詞的前後詞的詞向量,最後再通過一個全連線層做一次線性變換。除此之外,阿里還構造了 mis-matching features。如下圖所示,當某個翻譯結果錯誤單詞不多的時候,預訓練模型會給出正確的單詞預測分佈,這和翻譯結果啟用的單詞會存在一個 gap。這個 gap 是一個非常重要的特徵,阿里機器翻譯團隊的實驗顯示就算只用這個特徵去做下一步預測,也可以得到很好的結果。詳細內容可以參考阿里機器翻譯團隊的論文:“Bilingual Expert” Can Find Translation Errors [1]。

監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

其實阿里機器翻譯團隊採用的這種雙向解碼機制有非常優秀的屬性,它相當於遷移了一部分語言的知識。最近很多研究者都提倡以語言模型作為預訓練基礎模型將語言知識遷移到不同的 NLP 任務,阿里採用的這個結構正好體現了這種想法。在預測第 j 個詞時,j+1 和 j-1 兩個深層語義特徵向量都相當於使用預訓練的語言模型抽取語言特徵,而那兩個詞的詞嵌入向量則保留了原始資訊。

除了需要預測最可能的當前詞,更重要的是需要通過質量評估特徵向量為後續運算遷移足夠的語言知識。因此阿里的模型從詞預測模型中抽取了兩種質量評估特徵,除了深層語義特徵外,考慮到目標端詞預測的概率能表示當前詞出現的可能性,還額外抽取了如下的 mis-matching 特徵:

1. 深層語義特徵:

  • 正向深層語義特徵向量 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

  • 反向深層語義特徵向量 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

  • 前一個詞的詞向量 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

  • 後一個詞的詞向量 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

2. Mis-matching 特徵:

  • 目標端強制解碼為當前詞的概率資訊 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

  • 概率最高詞語的概率資訊 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

  • 強制解碼為當前詞與解碼為概率最高詞的概率資訊差異 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

  • 當前詞與預測詞是否一致 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

其中正向和反向深層語義特徵都從 Transformer 的解碼器中抽出,正向語義特徵 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型 包含了原語序列的所有資訊和目標語第 k 個詞之前的語義資訊,反向語義特徵 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型 包含了原語序列的所有資訊和目標語第 k 個詞之後的語義資訊;同時,深層語義特徵還包含第 k-1 個詞的詞義資訊 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型 和第 k+1 個詞的詞義資訊 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型。在基於『雙語專家』條件語言模型的詞預測模型的預測解碼環節,阿里機器翻譯團隊利用以上所有深層語義表達,重構了目標語 (Token Reconstruction)。所以如果我們強制解碼為真實的詞語,就可以取特徵資訊 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型。不強制解碼,保留模型預測最可能出現的詞語,我們就能得到特徵資訊 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型。剩下的兩種特徵則描述了 m_k 與 i_max 之間的關係。

質量評估模型

在抽取了質量評估特徵後,它們可以與人工抽取的特徵一起作為質量評估模型或 Quality Estimator 的輸入來計算譯文質量。不過既然基於條件語言模型特徵抽取模型和質量評估模型有緊密的聯絡,那麼為什麼不能將這兩個模型聯合在一起實現端到端的訓練呢?陳博興表示如果做端到端的訓練,很多人工新增的特徵是無法使用的。此外,特徵抽取模型廣泛使用的平行語料與質量評估模型使用的 QE 資料集有比較大的不匹配性,聯合訓練可能會產生較差的效能。這一點也非常直觀,平行語料只包含正確的目標語句子,而 QE 資料集同時包含正確與不正確的目標語句子。

正因為特徵抽取模型和質量評估模型雖然高度相關,但還是兩個獨立的模型,所以我們能額外手動提取一些特徵來提升模型效果。這些基礎特徵包括句長、標點符號數量、句子語言模型分數等,因此除了第一階段提取的特徵外,阿里還額外融合了 17 個人工提取的特徵,與之前隱層合併結果再次合併作為預測條件。

若將所有特徵向量都拼接在一起,且每一個特徵向量視為一個時間步,那麼我們就能以如下方式利用從原文與譯文中抽取的語義資訊。

監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型

阿里機器翻譯團隊採用的質量評估模型就是基於雙向 LSTM,模型預測的目標即句子層面的翻譯質量和單詞層面的翻譯對錯。其實這兩個任務除了評估階段採用的架構不一樣,其它如特徵抽取等過程都是一樣的。在句子層面中,biLSTM 編碼的前向的最後一個時間步與後向的最後一個時間步的隱藏特徵聯合計算一個實數值以表示翻譯質量,而在詞語層面的評估任務中,biLSTM 編碼對應的 目標端詞的每一個時間步的前後向量隱藏特徵聯合計算一個值以將它們分類為 OK 或 BAD。

資料與應用

整個翻譯評估系統需要使用兩種資料,即詞預測模型所使用的平行資料集和評估模型所使用的 QE 資料集。其中平行資料集可以在廣泛的領域收集,我們的目的是訓練一個能抽取語言語義資訊的模型,這很類似於預訓練一個強大的語言模型

而 WMT 組委會提供的 QE 訓練資料只有 1 至 3 萬,這對於訓練一個強大的魯棒性翻譯質量評估模型是遠遠不夠的。陳博興表示阿里機器翻譯團隊在英德和德英語向上分別構造 了 30 萬左右的 QE 訓練偽資料。這部分資料與真實 QE 資料合併訓練完質量評估基線模型後,會再使用真實的 QE 資料微調模型,即使用一個在大的資料集上預訓練好的模型在真實場景資料上微調。

阿里機器翻譯團隊參考了一些 WMT Automatic Post-Editing (APE)任務的方法。採用了一種 round-trip translation 的技術。先從大量單語資料中篩選出領域相關的單語,作為人工後編輯譯文 PE;同時用雙語語料訓練兩個 MT 系統(例如,如果要做英語到德語的翻譯質量評估,需要訓練德語到英語和英語到德語的機器翻譯系統)。將篩選的領域單語先通過一個 MT 系統生成原文 SRC;SRC 再通過另一個 MT 系統生成譯文 MT。這樣兩次調取 MT 結果的方法,生成了一批原文,譯文和人工後編輯譯文組合的 APE 資料,稱為 APE 訓練偽資料。然後他們通過 TER 工具生成了對應的 HTER 分數和詞標註,構造出了 QE 偽資料。為了更好地模擬真實資料,他們根據真實 QE 資料的 HTER 分佈,從構造的偽資料中隨機挑選出 30 萬。這些偽資料先與真實的 QE 資料一起訓練一個 Quality Estimator 的基礎 Baseline 模型,再單獨用真實的 QE 資料 fine tune 模型。

最後,開發這樣一個翻譯質量評估系統肯定是需要投入應用的。陳博興表示翻譯質量評估模型可以應用在很多業務上,例如它可以判斷翻譯系統給出的結果是不是足夠優秀,能不能直接展示給使用者。如果質量不行的話,譯文就可能需要人工校對。這對阿里的商品翻譯是非常重要的,因為如果產品品牌、買賣價格、產品描述等機器翻譯出現了誤差,那麼很容易引起業務上的糾紛。

此外,由於 BLEU 值只能評估有參考譯文的翻譯結構,這種翻譯質量評估系統能更廣泛地輔助機器翻譯或人工翻譯。陳博興表示該系統還可以更直接地評估資料,因為網上收集或購買的資料可能並不能保證質量,所以該系統可以充當過濾作用而確定能投入訓練的高質量雙語資料集。總而言之,阿里在利用高質量雙語資料集與 QE 資料集訓練質量評估模型後,它反過來可以評估其它雙語資料,並將優秀的資料投入翻譯模型的訓練與質量評估系統的訓練。

除了在 WMT 翻譯質量評估上獲得的榮譽,此前阿里達摩院機器智慧自然語言智慧團隊還在 2017 年美國標準計量局英文實體識別,2018 年機器閱讀理解首次超出人類回答精準率,2018 年 WMT 國際機器翻譯大賽等技術大賽上獲得十餘個冠軍。並以「讓商業沒有語言障礙」為理念,推動學術與工業界的融合創新。

參考文獻:

  • “Bilingual Expert” Can Find Translation Errors, https://arxiv.org/pdf/1807.09433.pdf

  • Predictor-estimator: Neural quality estimation based on target word prediction for machine translation, Hyun Kim, Hun-Young Jung et al.

  • Attention is all you need, https://arxiv.org/abs/1706.03762

  •  Semi-supervised sequence tagging with bidirectional language models, https://arxiv.org/abs/1705.00108

  • Log-linear combinations of monolingual and bilingual neural machine translation models for automatic post-editing, https://arxiv.org/abs/1605.04800

相關文章