7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

机器之心發表於2019-11-11

原文網址 : https://www.jiqizhixin.com/articles/2019-11-11-4

目錄：

Specializing Word Embeddings（for Parsing）by Information Bottleneck
Loss Landscape Sightseeing with Multi-Point Optimization
Unsupervised Cross-lingual Representation Learning at Scale
Understanding the Role of Momentum in Stochastic Gradient Methods
The Visual Task Adaptation Benchmark
The Eighty Five Percent Rule for optimal learning
Confident Learning: Estimating Uncertainty in Dataset Labels

論文 1：Specializing Word Embeddings（for Parsing）by Information Bottleneck

作者：Xiang Lisa Li、Jason Eisner
論文連結：http://cs.jhu.edu/~jason/papers/li+eisner.emnlp19.pdf

摘要：預訓練詞向量，如 ELMo 和 BERT 包括了豐富的句法和語義資訊，使這些模型能夠在各種任務上達到 SOTA 表現。在本文中，研究者則提出了一個非常快速的變分資訊瓶頸方法，能夠用非線性的方式壓縮這些嵌入，僅保留能夠幫助句法解析器的資訊。研究者將每個詞嵌入壓縮成一個離散標籤，或者一個連續向量。在離散的模式下，壓縮的離散標籤可以組成一種替代標籤集。通過實驗可以說明，這種標籤集能夠捕捉大部分傳統 POS 標籤標註的資訊，而且這種標籤序列在語法解析的過程中更為精確（在標籤質量相似的情況下）。而在連續模式中，研究者通過實驗說明，適當地壓縮詞嵌入可以在 8 種語言中產生更精確的語法解析器。這比簡單的降維方法要好。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

圖 1：研究者利用瓶頸變數 T 來例項化資訊瓶頸。

推薦：這篇論文的兩位作者都來自約翰·霍普金斯大學，其中一作更是華人學者。在 11 月 7 日於香港落幕的 EMNLP-IJCNLP 2019 大會上，這篇論文榮獲了本屆大會最佳論文獎。

論文 2：Loss Landscape Sightseeing with Multi-Point Optimization

作者：Ivan Skorokhodov、Mikhail Burtsev
論文連結：https://arxiv.org/abs/1910.03867
專案地址：https://github.com/universome/loss-patterns

摘要：在本文中，研究者提出了一種多點優化（multi-point optimization）方法，這種優化方法不僅可以同時訓練多個模型，而且無需單獨保留每個模型的引數。此外，這種優化方法用於對神經網路的損失情況進行全面的實證分析。FashionMNIST 和 CIFAR10 資料集上進行的大量實驗表明：1）就其所包含的景觀模式而言，損失表面呈現出驚人的多樣性； 2）新增批歸一化使其更加魯棒。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

圖 1：典型 CNN 模型在 FashionMNIST（a）和 CIFAR10（b）資料集上的損失表面示例。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

圖 2： FashionMNIST 資料集上用於 2D 模式擬合的多點優化方法。

推薦：這篇出自莫斯科物理技術學院（Moscow Institute of Physics and Technology）神經網路與深度學習實驗室的論文向讀者介紹了多點優化在模型訓練中的諸多優勢。

論文 3：Unsupervised Cross-lingual Representation Learning at Scale

作者：Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek 等
論文連結：https://arxiv.org/abs/1911.02116

摘要：本文表明，針對多種跨語言的傳輸任務，大規模地對多語言語言模型進行預訓練可以顯著提高效能。在使用超過 2TB 的已過濾 CommonCrawl 資料的基礎上，研究者在 100 種語言上訓練了基於 Transformer 的掩模語言模型。該模型被稱為 XLM-R，在各種跨語言基準測試中，其效能顯著優於多語言 BERT（mBERT），其中 XNLI 的平均準確度為+ 13.8％，MLQA 的平均 F1 得分為+ 12.3％，而 FQ 的平均 F1 得分為+ 2.1％ NER。XLM-R 在低資源語言上表現特別出色，與以前的 XLM 模型相比，斯瓦希里語（Swahili）的 XNLI 準確性提升了 11.8％，烏爾都語（Urdu）的準確性提升了 9.2％。研究者還對獲得這些提升所需的關鍵因素進行了詳細的實證評估，包括（1）積極轉移和能力稀釋；（2）大規模資源資源的高低效能之間的權衡。最後，他們首次展示了在不犧牲每種語言效能的情況下進行多語言建模的可能性。XLM-Ris 在 GLUE 和 XNLI 基準測試中具有強大的單語言模型，因此非常具有競爭力。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

圖 1：跨語言分類結果。研究者展示了各種模型在 15 中 XNLI 語言上的準確率以及平均準確率。本文提出的 XLM-R 模型均取得了 SOTA 結果。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

表 1：各種模型在 CoNLL-2002 和 CoNLL-2003（F1 得分）上的命名實體識別結果。可以看出，本文提出的 XLM-R 模型在 nl 和 es 取得了 SOTA 結果。

推薦：Facebook 這篇論文提出的 XLM-R 模型是基於 Transformer 的掩模語言模型，其在多個跨語言理解基準測試中的結果都顯著優於 BERT（mBERT）。

論文 4：Understanding the Role of Momentum in Stochastic Gradient Methods

作者：Igor Gitman、Hunter Lang、Pengchuan Zhang、Lin Xiao
論文連結：https://arxiv.org/abs/1910.13962v1

摘要：隨機梯度方法中動量（momentum）的使用已成為機器學習領域的一種廣泛實踐。動量的不同變體，包括重球動量、Nesterov 加速梯度（Nesterovs』 Accelerated Gradient，NAG）和準雙曲線動量（quasi-hyperbolic momentum，QHM），已在各種任務上取得了成功。儘管在實證上取得了成功，但對動量引數如何影響收斂以及各種演算法的不同效能衡量指標缺乏清楚的瞭解。在本文中，研究者利用 QHM 的通用方法對幾種流行的演算法進行了統一分析，涵蓋了這些演算法的漸近收斂條件、穩定區域和平穩分佈的特性。另外，通過結合收斂速度和平穩分佈的結果，研究者有時會獲得反直覺的實際準則來設定學習率和動量引數。

推薦：這篇出自微軟研究院人工智慧中心（Microsoft Research AI）的論文詳細探討了隨機梯度中動量引數對收斂以及不同演算法中效能衡量指標的影響。

論文 5：The Visual Task Adaptation Benchmark

作者：Xiaohua Zhai、Joan Puigcerver、Alexander Kolesnikov、Pierre Ruyssen 等
論文連結：https://arxiv.org/abs/1910.04867

摘要：深度學習已經給計算機視覺領域帶來了諸多改變。其中，達到 SOTA 水平的深度網路能夠直接從原始畫素中學習有用的表徵，從而在眾多視覺任務上取得了前所未有的效能。但是，「從零開始」學習這些表徵通常需要大量的訓練樣本。為了解決這方面的問題，谷歌 AI 推出了「視覺任務適應性基準」（Visual Task Adaptation Benchmark，VTAB）。這是一個多樣性的、真實的和具有挑戰性的表徵基準。這一基準基於以下原則：在所需領域內資料有限的情況下，更好的表徵應當能夠在未見任務上實現更佳的效能。受啟發於推動其他機器學習領域進展的一些基準，如用於自然影像分類的 ImageNet、自然語言處理的 GLUE 和強化學習的 Atari，VTAB 遵循相似的準則：（i）對解決方案施加最小約束，以鼓勵創造性；（ii）注重實際；（iii）藉助挑戰性任務進行評估。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

VTAB 基準原理圖。

推薦：眾所周知，影像分類領域有 ImageNet 資料集，自然語言處理領域有 GLUE 基準，這些基準在對應領域的進展中發揮了重要作用。終於，谷歌推出了視覺任務適應性領域的基準 VTAB（Visual Task Adaptation Benchmark），該基準有助於使用者更好地理解哪些哪些視覺表徵可以泛化到更多其他的新任務上，從而減少所有視覺任務上的資料需求。

論文 6：The Eighty Five Percent Rule for optimal learning

作者：Robert C. Wilson、Amitai Shenhav、Mark Straccia、Jonathan D. Cohen
論文連結：https://www.nature.com/articles/s41467-019-12552-4
專案地址：https://github.com/bobUA/EightyFivePercentRule

摘要：一直以來，研究人員和教育工作者都在思考一個問題：如何最好地教導他們的客戶——無論是人類、動物或者機器。在本文中，研究者檢驗了單一變數，即訓練難度，對學習率的影響。在很多情況下，他們發現存在一個「甜蜜點」，其中訓練既不是太簡單也沒有太困難，並且學習程式最快。研究者在二進位制分類任務情境下為一系列學習演算法的「甜蜜點」推匯出了條件。對於所有這些基於隨機梯度的學習演算法而言，他們發現訓練的最優誤差率約為 15.87%，反過來說，最優訓練準確率約為 85%。研究證明，『85% 規則』對 AI 中使用的人工神經網路和生物上可信的神經網路的效用被認為可以用來描述動物學習。研究證明了「85% 規則」對 AI 中使用的人工神經網路以及生物學上可信且被認為用於描述動物學習的神經網路的有效性。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

應用於感知器的「85% 規則」。a 橫座標表示每次訓練的誤差率（error rate），縱座標表示訓練次數（trial number）。圖中的顏色表示訓練出的網路的準確率，其中顏色越黃表示準確率越高，顏色越藍表示準確率越低；b 橫座標表示訓練數量，縱座標表示相對精度（relative precision），三條曲線分別表示 0.36、0.06 和 0.16 的誤差率。可以看出，當誤差率為 0.16 時，相對精度的增加是最快的。這說明 0.16（約為 15.87%）為訓練中的最優誤差率。

推薦：這是一篇發表在 Nature Communications 上的論文，詳細介紹了最優學習的 85% 規則。

論文 7：Confident Learning: Estimating Uncertainty in Dataset Labels

作者：Curtis G. Northcutt、Lu Jiang、Isaac L. Chuang
論文連結：https://arxiv.org/abs/1911.00068
專案地址：https://pypi.org/project/cleanlab/

摘要：學習存在於資料語境中，而置信概念通常注重模型預測，而不是標籤質量。基於修剪噪聲資料、計數以估計噪聲以及示例排序以進行置信訓練的原則，置信學習（Confident Learning，CL）已經成為一種表徵、識別和學習資料集中噪聲標籤的方法。在本文中，研究者基於分類噪聲過程的假設對 CL 進行泛化，以直接估計噪聲（給定）標籤和純淨（未知）標籤之間的聯合分佈。這種泛化的 CL 作為 cleanlab 進行開源，在合理的條件下被證明是一致的，並在 ImageNet 和 CIFAR 資料集上具有實驗效能，優於最近的方法，例如當標籤噪聲非均勻時，效能高出 MentorNet30％或更多。cleanlab 還可以量化本體論類重疊，並可以通過提供純淨資料進行訓練來提升模型的準確性（如 ResNet）。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

圖 1：置信學習（CL）流程以及置信節點 和估計聯合分佈的示例。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

圖 2：研究者對具有 40% 標籤噪聲和 60% 稀疏性的 CIFAR 進行聯合分佈標籤噪聲估計。

推薦：這篇出自麻省理工學院和谷歌的論文通過對分類噪聲的假設對置信學習（CL）進行泛化，實現了對噪聲標籤和純淨標籤之間聯合分佈的直接估計。

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

7 Papers | KDD2019最佳論文；AutoML SOTA 綜述
2019-08-23
TOML
EMNLP 2022大會正式落幕，最佳長論文、最佳短論文等獎項公佈
2022-12-13
從2019 AI頂會最佳論文，看深度學習的理論基礎
2020-01-27
AI深度學習
理解C語言宣告的優先順序規則
2018-05-09
C語言
C語言學習四 — 函式與作用域規則
2018-12-11
C語言函式
ICML：2019論文接收結果視覺化
2019-05-12
視覺化
清華大學、北京語言大學獲得 CCL 2018 最佳論文獎
2018-10-25
Rust 語言學習之旅（7）
2022-09-29
Rust
7 Papers | 深度強化學習綜述、圖靈71年前未發表的智慧機器論文
2019-06-30
強化學習圖靈
【論文學習】FastText總結
2020-10-10
AST
【EMNLP 2023】面向垂直領域的知識預訓練語言模型
2023-12-07
模型
一文帶你瞭解python語言命名規則!
2023-02-10
Python
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
Go語言學習筆記 - PART7 - 結構體
2019-05-02
Go筆記結構體
Go語言學習(7) - 運算子
2019-01-05
Go
國外 7 個最佳大語言模型 (LLM) API 推薦
2024-07-31
模型API
java是最值得學習的程式語言嗎？
2020-10-23
Java
SIGIR2018大會最佳短論文：利用對抗學習的跨域正則化
2019-02-27
跨域
視覺語言模型的高效遷移學習
2024-10-30
視覺模型遷移學習
計算機語言學國際大會COLING 2018公佈9篇最佳論文
2018-06-19
計算機
EMNLP 2019 常識資訊增強的事件表示學習
2019-09-16
事件
go語言學習-結構體
2018-03-25
Go結構體
EMNLP 2019 丨微軟亞洲研究院精選論文解讀
2019-11-05
微軟
ICML 2019最佳論文：測試12000個模型後，谷歌質疑現有無監督分離式表徵學習
2019-06-12
模型谷歌
「預訓練」獲EMNLP最佳論文，一作為華人，哈工大劉挺教授10篇論文被接收
2019-11-08
2018自然語言處理與機器學習論文發表統計
2019-01-12
自然語言處理機器學習
一文解碼語言模型：語言模型的原理、實戰與評估
2023-11-13
模型
spaCy 學習第二篇：語言模型
2019-05-13
模型
論文學習
2020-06-01
NLP論文解讀：無需模板且高效的語言微調模型（上）
2022-03-11
模型
Top 5 榜單：最容易學習和最難掌握的程式語言
2021-12-29
解讀NeurIPS2019最好的機器學習論文
2020-01-09
機器學習
撰寫論文的十個簡單規則 | PLOS
2022-09-14
EMNLP 2019 | 面向科學文獻的事實與條件聯合抽取
2020-01-08
學習Python的優勢有哪些？Python程式語言
2020-07-21
Python
蘋果OpenELM：開源小語言模型
2024-04-25
蘋果模型
Facebook投放優化模型
2019-11-25
優化模型
Hugging Face 論文平臺 Daily Papers 功能全解析
2024-09-24
Hugging FaceAI

7 papers｜EMNLP 2019最佳論文；Facebook語言模型XLM-R取得SOTA結果；最優學習的85%規則

相關文章