自然語言處理(NLP)所面臨的其中一個關鍵性挑戰是,構建的系統不僅要在英文中 work,而且要在世界範圍內約 6900 種語言中也 work。幸運的是,雖然大多數語言呈現資料稀疏(data sparse)且沒有充足可用的資料來自行訓練魯棒的模型,但其中的很多語言共享大量的底層結構。
此外,NLP 領域有很多方法在訓練過程中利用到了多語言的共享結構,以克服資料稀疏的問題。但不足的是,大多數這些方法側重於在多語言中執行特定任務。近幾年,得益於深度學習的進展,有更多的方法試圖學習通用的多語言表示(如 mBERT、XLM 和 XLM-R),這些方法旨在捕獲跨語言間共享且對多工有用的知識。但在實踐中,這類方法的評估卻大多側重於一小部分任務以及相似的語言。
因此,為了鼓勵人們在多語言學習領域開展更多研究,谷歌研究院聯合 CMU、DeepMind 發表了研究論文《XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》,該研究覆蓋了 40 種型別不同的語言(跨 12 個語系),幷包含了 9 項需要對不同句法或語義層面進行推理的任務。
在 XTREME 大規模多語言多工基準上選擇 40 種不同型別的語言,這是為了實現語言多樣性、現有任務覆蓋以及訓練資料可用性的最大化。其中一些是 under-studied 的語言,如達羅毗荼語系中的泰米爾語(印度南部、斯里蘭卡和新加坡)、泰盧固語和馬拉雅拉姆語(主要集中在印度南部)以及尼日-剛果語系中的斯瓦希里語和約魯巴語(非洲)。
論文地址:https://arxiv.org/pdf/2003.11080.pdf
專案地址:https://github.com/google-research/xtreme
XTREME 論文的並列一作是 CMU 語言技術研究所的在讀博士胡俊傑,和 DeepMind 著名的研究科學家 Sebastian Ruder。
XTREME
XTREME 中的任務涵蓋了句子分類、結構化預測、句子檢索和問答等一系列樣式,因此,為了使模型在 XTREME 上取得好的表現,就必須學習可以泛化至多標準跨語種遷移設定的表徵。
XTREME 支援的任務型別。
每種任務都涵蓋 40 種語言的子集,為了獲得 XTREME 分析所用的低資源語言的附加資料,自然語言推理(XNLI)和問答(XQuAD)這兩個代表性任務的測試集會自動從英語翻譯為其他語言。模型在使用這些翻譯過來的測試集執行任務時的效能表現,可與使用人工標註測試集的表現相媲美。
Zero-shot 評估
在使用 XTREME 評估模型的效能之前,首先要用支援跨語言學習的多語言文字進行模型預訓練。然後根據任務特定的英語資料對模型進行微調,因為英語是最容易獲得標籤化資料的語言。之後,XTREME 會評估這些模型的 zero-shot 跨語言遷移效能,包括在其他沒有任務特定資料的語言中。
下圖展示了「預訓練-微調-zero-shot 遷移」的過程:
模型的跨語言遷移學習過程:1、針對多語言文字的預訓練;2、使用英語對下游任務進行微調;3、使用 XTREME 進行 zero-shot 評估。
在實際操作中,這種 zero-shot 設定的好處就在於計算效率,預訓練模型僅需要針對每個任務在英語資料上進行微調,便能直接應用於其他語言的評估。但對於其他有標籤化資料的語言的任務,研究者也進一步對比了微調結果,根據在 9 個 XTREME 任務上的 zero-shot 得分來提供最終綜合得分。
遷移學習測試平臺
研究者使用了幾種多語言預訓練 SOTA 模型進行了實驗,包括:
多語言 BERT(mBERT):BERT 的多語言擴充套件版本;
XLM 和 XLM-R:規模更大、資料處理量更多版本的「多語言 BERT」;
M4:大規模多語言機器翻譯模型。
所選用的這些模型都有一個共同特點,就是已經過多種語言的大量資料的預訓練。在本次實驗中,研究者使用這些模型的變體——變體已在大概 100 種語言中進行了預訓練,其中也包括 XTREME 上的 40 種語言。
實驗結果表明,雖然模型在大多數現有英語任務中的表現接近於人類表現,但在許多其他語言中的表現卻明顯落了下風。在所有模型中,結構化預測和問答這兩項任務在英語和其他語種之間的效能差距最為明顯,而結構化預測和句子檢索這兩項任務則在跨語言結果上分佈差異最大。
下圖按照任務和語言的類別,展示了 zero-shot 設定下的 best-performing 模型 XLM-R 在所有語系中的表現。不同任務之間的分數不可相比,重點在於同一任務下、不同語系中的相對排名,如圖所示,許多高資源語言比如印歐語系,排名一直比較高。相比之下,該模型在其他語種,比如藏語、日語、韓語等語言上的效能排名較低。
在 zero-shot 設定下,XTREME 基準上 best-performing 模型(XLM-R)在所有任務和語言上的效能表現。得分是基於 task-specific 度量的百分比,並且在不同任務之間沒有直接比較。人類表現(如果可用)則由紅星表示。
總之,研究者得出了以下一些有趣的觀察結果:
在 zero-shot 設定下,M4 和 mBERT 在大多數任務上表現出與 XLM-R 媲美的效能,但是 XLM-R 在特別具有挑戰性的問答任務上要優於前兩者。例如,在 XQuAD 任務上,XLM-R 得分為 76.6,高於 M4 的 64.6 和 mBERT 的 64.5。三者在 MLQA 和 TyDi QA 任務上的表現情況也是如此;
利用機器翻譯的基線方法,在翻譯訓練資料或測試資料時,都會表現出強大的效能。例如,在 XNLI 任務上,mBERT 在 zero-shot 遷移設定下得分為 65.4,但在使用翻譯過的訓練資料時,得分提升到了 74.0。
few-shot 設定(即使用有限的語內標籤資料)對 NER 等相對簡單的任務會表現出特別強大的效能,但對於更為複雜的問答任務則幫助有限。以 mBERT 的效能表現為例,在 few-shot 設定下,它在 NER 任務上的效能提升了 42%,得分由 62.2 提升到 88.3;但在問答任務上(TyDi QA),效能僅提升了 25%,得分由 59.7 提升到 74.5;
最後,所有模型和設定在英文和其他語言上的效能表現依然存在很大的差距,這表明跨語言遷移依然有著巨大的研究潛力。
跨語言遷移分析
與此前對於深度模型泛化能力的觀察類似,我們可以看到預訓練資料越多,效果就更好,如 mBERT 遇 XLM-R 相比。不過這種相關性並未出現在結構化預測任務中:在詞性標記(POS)和命名實體識別(NER)等任務上,當前的深度預訓練模型無法完全利用預訓練資料來遷移此類語法任務。
研究人員還發現模型也很難遷移到非拉丁語言中。這種情況在 POS 任務上非常明顯,其中 mBERT 在西班牙語上的 zero-shot 準確率為 86.9%,在日語上僅為 49.2%。
對於自然語言推理任務 XNLI,研究者發現模型在同一個預測上,英語和其他語言相同的情況為 70%。半監督方法可能會有助於提高翻譯成其他語言後預測的一致性。研究者還發現,模型很難預測出英語訓練資料中未出現的 POS 標記,這表明這些模型難以從用於預訓練的大量未標記資料中學習其他語言的語法。
對於實體命名識別,模型預測最為不準確的是與英語差異最大的幾種語言——其在印尼語和斯瓦西里語中的準確度為 58.0 和 66.6,相比之下,葡萄牙語和法語為 82.3 和 80.1。
多語言遷移學習
英語的使用人數僅佔全球人口的 15%,但其 NLP 研究卻最為充分。研究者相信透過構建深度上下文表示方式,我們就擁有了為全球其他種類的語言提供實質性技術進展的工具。XTREME 或許可以成為多語言遷移學習的重要一步,就像 GLUE 和 SuperGLUE 在單語言模型基準上那樣,催生出類似 BERT、RoBERTa、XLNet、AlBERT 的優秀模型。
參考內容:http://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html