很多 NLP 系統(如情感分析、主題分類、feed 排序)依賴在高資源語言中訓練資料,卻無法直接在測試時為其他語言進行預測。該問題在幾乎所有涉及跨語言資料的行業應用中都會出現。
我們可以使用機器翻譯將任意樣本翻譯成高資源語言,來緩解該問題。但是,在每個語言方向都構建一個機器翻譯系統太昂貴,不是跨語言分類的最佳解決方案。跨語言編碼器更便宜,也更優雅(見下圖示例)。
為了評估此類跨語言句子理解方法,來自 Facebook 和紐約大學的研究者建立了 XNLI,它是 SNLI/MultiNLI 語料庫的擴充套件版,涉及 15 種語言。XNLI 提出了以下研究問題:在僅具備英語訓練資料的情況下,我們如何在測試時對任意語言進行預測?
行業應用的常規任務可能不包括自然語言推斷(natural language inference,NLI),但研究者認為 NLI 是評估跨語言句子表徵的良好測試平臺,XNLI 的更好方法能夠帶來更好的跨語言理解(crosslingual language understanding,XLU)方法。
XNLI 語料庫
跨語言自然語言推斷(XNLI)語料庫是一個眾包語料庫,基於 MultiNLI 語料庫收集了 5000 個測試對和 2500 個開發對。研究者使用文字蘊含標註這些句對,然後將這些句子翻譯成 14 種語言:法語、西班牙語、德語、希臘語、保加利亞語、俄語、土耳其語、阿拉伯語、越南語、泰語、中文、印度語、斯瓦西里語和烏爾都語,這就有 11.25 萬標註對了。每個 premise 可與 15 種語言中的對應假設相關,一共有超過 150 萬組合。
該研究介紹了一個基準,即 XNLI 語料庫,它將這些 NLI 語料庫擴充套件到 15 種語言。XNLI 包括 7500 個人工標註開發和測試樣本,格式為 NLI 三向分類,一共生成了 112500 個標註句對。這些語言涉及多個語系,包括斯瓦西里語和烏爾都語這兩種低資源語言。
XNLI 語料庫聚焦於開發資料和測試資料,因此構建它的目的是評估跨語言句子理解,其中模型必須在一種語言中訓練,在其他不同的語言中測試。
研究者評估了多種自然語言推斷的跨語言學習方法,訓練資料是來自於公開語料庫的平行資料。研究展示了平行資料有助於在多語言中對齊句子編碼器,以使使用 English NLI 資料訓練的分類器能夠正確地分類其他語言的句對。儘管該對齊方法不敵該研究使用的機器翻譯基線模型,但該對齊方案的效能也很有競爭力。
下載
XNLI 是一個 ZIP 檔案,包含 JSON lines (jsonl) 和製表符分割文字 (txt) 兩種格式的語料庫。
英語訓練資料地址:https://www.nyu.edu/projects/bowman/multinli/
XNLI 語料庫下載地址:https://s3.amazonaws.com/xnli/XNLI-1.0.zip(17MB,ZIP)
XNLI 還可用作一萬個句子的 15way 平行語料庫,來構建或評估機器翻譯系統。XNLI 為低資源語言(如斯瓦西里語和烏爾都語)提供額外的開放平行資料。
XNLI-15way 下載地址:https://s3.amazonaws.com/xnli/XNLI-15way.zip(12MB,ZIP)
論文:XNLI: Evaluating Cross-lingual Sentence Representations
論文地址:https://research.fb.com/wp-content/uploads/2018/10/XNLI-Evaluating-Cross-lingual-Sentence-Representations.pdf
摘要:當前最優的自然語言處理系統依賴標註資料來學習強大的模型。這些模型往往是在單語資料(通常是英語)上訓練的,無法直接用於其他語言。由於收集每種語言的資料不切實際,因此研究者對跨語言理解(XLU)和低資源跨語言遷移的興趣越來越大。本研究將 MultiNLI 的開發集和測試集擴充套件到 15 種語言(包括斯瓦西里語和烏爾都語等低資源語言),從而構建了一個 XLU 的評估集。我們希望該資料集,即 XNLI 能夠提供資訊量大的標準評估任務來促進跨語言句子理解的研究。此外,我們還提供了多個多語言句子理解的基線模型,其中兩個基於機器翻譯系統,還有兩個使用平行資料來訓練對齊多語言詞袋模型和 LSTM 編碼器。我們發現 XNLI 是一個實際且有難度的評估套件,在直接翻譯測試資料任務上獲得了可用基線模型中的最優表現。