機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力

微软研究院AI头条發表於2019-10-12

原文網址 : https://www.jiqizhixin.com/articles/2019-10-12-4

推理是自然語言處理領域非常重要且具有挑戰性的任務，其目的是使用已有的知識和推斷技術對未見過的輸入資訊作出判斷 (generate outputs to unseen inputs by manipulating existing knowledge with inference techniques)[1]。在本文中，我們以自然語言推理（Natural Language Inference，NLI）為應用，介紹跨語言預訓練和機器推理結合的最新方法和進展。

自然語言推理任務的輸入是兩個自然語言句子，分別稱為前提（premise）和假設（hypothesis）。該任務的目標是判斷能否從前提中推出假設。這是一個分類任務，輸出共有三類，分別是“蘊含”、“矛盾”和“無關”。例如圖1中的第四個例子，前提為“一場有多名男性的足球比賽”，假設為“一些男人正在進行一場體育運動”，基於常識“足球比賽是一種體育運動”，我們可以知道該前提蘊含了假設。如果假設為“庫裡三分命中”，則前提和假設矛盾。

目前自然語言推理任務中常見的模型多為文字匹配模型。這類方法首先對前提和假設進行編碼和注意力互動（attention），然後直接進行統計學習，並不顯式建模推理過程。基於預訓練的模型，例如 BERT[2]，在出現後迅速成為自然語言推理任務上的最優模型。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖1：SNLI (Stanford NLI)資料樣例跨語言的自然語言推理（Cross-lingual NLI，XNLI）[3]任務進一步把自然語言推理任務定義在了多種語言上。在這些語言中，只有英語有訓練資料集，其他語言只有驗證集和測試集。這一任務主要考驗模型能否將英語訓練資料集上學習到的推理知識遷移到其他語言。圖2是該資料集的測試資料集的樣例。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖2：XNLI資料樣例跨語言預訓練

正如英語一樣，跨語言的自然語言推理的最優模型也是基於預訓練。目前跨語言預訓練的模型包括 Multilingual BERT、XLM 和 Unicoder。

Multilingual BERT 的核心思想是用相同的模型和權值來處理所有的目標語言。首先，因為不同語言有不同的詞彙，Multilingual BERT 建立了一個包含所有目標語言的詞彙表。其次，Multilingual BERT 編碼部分的結構和BERT相同，並且在所有語言之間共享。預訓練的任務仍然是 BERT 的 masked language model。其中每個樣本都是一個單語段落，所有語言以多工的方式交替訓練。圖3是訓練時的示意圖。通過共享引數，Multilingual BERT 可以獲得一定的跨語言遷移能力。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖3：Multilingual BERT 訓練任務XLM [4]在 Multilingual BERT 的基礎上，增加了一個新的任務，Translation Language Model。該任務將機器翻譯語料中的雙語句對拼接成一個新的句子，然後在這個句子上進行 Masked Language Model 的預訓練。通過這一任務，XLM可以學習到兩個語言之間的對應關係，從而獲得比 Multilingual BERT 更好的跨語言遷移能力。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖4：XLM 訓練任務

Unicoder [5]在XLM 的基礎上，進一步提出了三個新的任務，使模型能夠更好的學習語言之間的對應關係。三個任務分別是：跨語言的詞語恢復，跨語言的同義句子分類和跨語言的 Masked Language Model。三個任務分別定義在詞語、句子和段落級別，可以讓模型從不同的層次學習兩個語言的對應關係。

跨語言的詞語恢復（Cross-lingual Word Recovery）的輸入是一個同意的雙語句對。如圖5(a)所示，模型首先用中文詞語的表示向英文所有詞語進行一次attention，得到一個在隱變數空間的表示。這個表示是英文詞語表示的帶權和。然後將得到的表示輸入 Transformer，恢復原來的中文詞。通過這個結構，模型可以在不引入詞對齊工具的情況下，學習到中英詞語之間的對應關係。

跨語言的同義句子分類（Cross-lingual Paraphrase Classification）的輸入是兩個不同語言的句子，目標是判定這兩個句子是否有相同的意思。如圖5(b)所示，模型將兩個句子連線作為輸入，用一個詞對應的表示訓練一個二分類器。這是自然語言在句子級別最基礎的任務之一。通過這個任務，模型可以學習兩個語言在句子層面的對應關係。

跨語言的 Masked Language Model 的輸入是一篇用多種語言寫成的文章。如圖5(c)所示，這個文章中，相鄰的句子的語言不同，但是仍然保持通順的承接關係。該任務在多語言的文章上進行 Masked Language Model，可以模糊語言之間的邊界，更好的將多種語言混合成一種語言。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖5：Unicoder 訓練任務

跨語言的 Fine-tuning

預訓練好的模型需要在目標任務上進行 Fine-tuning。在跨語言的任務上，目前已有的 Fine-tuning 的方法有三種。在此基礎上，我們提出了一種新的方法：多語言 Fine-tune。這些方法可以根據 Fine-tuning 時使用的訓練資料和測試資料進行分類。

假設我們在只有英語訓練資料的情況下，希望在中文測試資料集上進行測試。這時有兩個基於機器翻譯的 Fine-tuning 方法：

• 測試資料翻譯（Translate Test）將中文的測試資料翻譯成英文的測試資料，將問題轉化成英文訓練、英文測試的問題。

• 訓練資料翻譯（Translate Train）將英文的訓練資料翻譯成中文的訓練資料，將問題轉化成中文訓練、中文測試的問題。

對於能同時編碼多種語言的模型，可以直接進行跨語言測試（Cross-lingual Test），也就是直接將在英語訓練集上訓練得到的模型在中文上進行測試。這種方法需要模型有較強的跨語言遷移能力。

在此基礎上，我們提出了一種新的 Fine-tuning 的方法，多語言 Fine-tuning。在多語言 Fine-tuning 中，英文訓練資料被翻譯成了多種語言，然後以多工的方式共同訓練，最後直接在中文測試集上進行測試。實驗表明，多語言 Fine-tuning 能夠穩定地提高模型在各個語言上的測試結果。對於一個確定的預訓練模型，Fine-tuning 的語言越多，效果也就越好。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖6：跨語言Fine-tuning詳細的實驗結果見圖7。可以看到，在同樣的 Fine-tuning 的情況下，Unicoder 的預訓練方法取得了比 baseline 方法更好的結果。在同樣預訓練模型的情況下，多語言 Fine-tuning 方法可以穩定提升每個語言的測試結果。通過結合 Unicoder 的預訓練和 Fine-tuning，我們取得了 XNLI 上的最優結果。更多的結果可以參看我們的論文[5]。

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力圖7：跨語言 Fine-tuning 實驗結果

結語

本文介紹了跨語言的機器推理任務，以及如何利用預訓練的方法將單語的機器推理擴充套件到其他語言。通過結合 Unicoder 提出的預訓練和 Fine-tuning，我們達到了 XNLI 資料上的最優結果。

敬請期待機器推理方法在更多推理任務上的應用！

參考文獻：

[1] Ming Zhou, Nan Duan, Shujie Liu, Heung-Yeung Shum. Progress in Neural NLP: Modeling, Learning and Reasoning. Accepted by Engineering, 2019.

[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019.

[3] Conneau, Alexis, Ruty Rinott, Guillaume Lample, Adina Williams, Samuel Bowman, Holger Schwenk, and Veselin Stoyanov. "XNLI: Evaluating Cross-lingual Sentence Representations." EMNLP 2018.

[4] Lample, Guillaume, and Alexis Conneau. "Cross-lingual language model pretraining.". NeurlPIS 2019.

[5] Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Ming Zhou. “Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks”. EMNLP 2019.

機器推理系列第五彈：文字+視覺，跨模態預訓練新進展
2020-01-15
視覺
機器推理系列第四彈：基於推理的多輪語義分析和問答
2020-01-15
機器推理系列第二彈：機器推理在事實檢測任務中的應用
2019-10-11
機器是如何學習推理的？
2019-01-07
一窺Habana的推理和訓練神經處理器
2019-12-16
【EMNLP 2023】基於知識遷移的跨語言機器閱讀理解演算法
2023-12-08
演算法
瀏覽器中的機器學習：使用預訓練模型
2019-04-26
瀏覽器機器學習模型
知識增強的預訓練語言模型系列之ERNIE：如何為預訓練語言模型注入知識
2021-12-30
模型
投機取樣會損失大語言模型的推理精度嗎？
2024-08-09
模型
機器學習的訓練集
2021-02-05
機器學習
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
從DDPM到DDIM(三) DDPM的訓練與推理
2024-07-25
面向推理訓練一體化的 MNN 工作臺
2022-02-08
KVM虛擬機器的冷遷移
2024-04-13
虛擬機
大語言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
2023-04-06
模型OOM
Facebook新研究：一個編碼器hold住93種語言！跨語言遷移無需修改
2018-12-28
沒想到！AlphaZero式樹搜尋也能用來增強大語言模型推理與訓練
2024-07-10
模型
使用Tensorflow Object Detection進行訓練和推理
2021-04-26
Object
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
自編碼器AE全方位探析：構建、訓練、推理與多平臺部署
2023-10-27
AI信任危機之後，揭秘預訓練如何塑造機器的「可信靈魂」
2024-04-25
AI
KVM虛擬機器遷移（靜態）
2024-04-27
虛擬機
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
從高階語言到機器語言
2021-03-03
幾道經典邏輯推理題，提高你的邏輯思考能力
2019-10-20
北大推出全新機器人多模態大模型！面向通用和機器人場景的高效推理和操作
2024-06-20
機器人大模型
大模型缺乏基本推理能力？
2024-06-10
大模型
機器學習開源框架系列：Torch：3：影像風格遷移
2020-12-29
機器學習框架
機器語言編寫helloworld
2024-03-31
Findings | 中文預訓練語言模型回顧
2020-11-18
模型
常見預訓練語言模型簡述
2022-04-11
模型
COLING 2020 | CharBERT：字元敏感的預訓練語言模型
2020-11-20
字元模型
Meta：透過機器學習和因果推理改進 Instagram 通知管理
2022-11-07
機器學習
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
Noam Brown早已預示o1強大推理能力，演講深度解析AI推理研究脈絡
2024-10-04
AI

機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力

相關文章