7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

機器之心發表於2019-11-11
目錄:
  • Specializing Word Embeddings(for Parsing)by Information Bottleneck

  • Loss Landscape Sightseeing with Multi-Point Optimization

  • Unsupervised Cross-lingual Representation Learning at Scale

  • Understanding the Role of Momentum in Stochastic Gradient Methods

  • The Visual Task Adaptation Benchmark

  • The Eighty Five Percent Rule for optimal learning

  • Confident Learning: Estimating Uncertainty in Dataset Labels

論文 1:Specializing Word Embeddings(for Parsing)by Information Bottleneck

  • 作者:Xiang Lisa Li、Jason Eisner

  • 論文連結:http://cs.jhu.edu/~jason/papers/li+eisner.emnlp19.pdf

摘要:預訓練詞向量,如 ELMo 和 BERT 包括了豐富的句法和語義資訊,使這些模型能夠在各種任務上達到 SOTA 表現。在本文中,研究者則提出了一個非常快速的變分資訊瓶頸方法,能夠用非線性的方式壓縮這些嵌入,僅保留能夠幫助句法解析器的資訊。研究者將每個詞嵌入壓縮成一個離散標籤,或者一個連續向量。在離散的模式下,壓縮的離散標籤可以組成一種替代標籤集。透過實驗可以說明,這種標籤集能夠捕捉大部分傳統 POS 標籤標註的資訊,而且這種標籤序列在語法解析的過程中更為精確(在標籤質量相似的情況下)。而在連續模式中,研究者透過實驗說明,適當地壓縮詞嵌入可以在 8 種語言中產生更精確的語法解析器。這比簡單的降維方法要好。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

圖 1:研究者利用瓶頸變數 T 來例項化資訊瓶頸。

推薦:這篇論文的兩位作者都來自約翰·霍普金斯大學,其中一作更是華人學者。在 11 月 7 日於香港落幕的 EMNLP-IJCNLP 2019 大會上,這篇論文榮獲了本屆大會最佳論文獎。

論文 2:Loss Landscape Sightseeing with Multi-Point Optimization

  • 作者:Ivan Skorokhodov、Mikhail Burtsev

  • 論文連結:https://arxiv.org/abs/1910.03867

  • 專案地址:https://github.com/universome/loss-patterns

摘要:在本文中,研究者提出了一種多點最佳化(multi-point optimization)方法,這種最佳化方法不僅可以同時訓練多個模型,而且無需單獨保留每個模型的引數。此外,這種最佳化方法用於對神經網路的損失情況進行全面的實證分析。FashionMNIST 和 CIFAR10 資料集上進行的大量實驗表明:1)就其所包含的景觀模式而言,損失表面呈現出驚人的多樣性; 2)新增批歸一化使其更加魯棒。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

圖 1:典型 CNN 模型在 FashionMNIST(a)和 CIFAR10(b)資料集上的損失表面示例。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

圖 2: FashionMNIST 資料集上用於 2D 模式擬合的多點最佳化方法。

推薦:這篇出自莫斯科物理技術學院(Moscow Institute of Physics and Technology)神經網路深度學習實驗室的論文向讀者介紹了多點最佳化在模型訓練中的諸多優勢。

論文 3:Unsupervised Cross-lingual Representation Learning at Scale

  • 作者:Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek 等

  • 論文連結:https://arxiv.org/abs/1911.02116

摘要:本文表明,針對多種跨語言的傳輸任務,大規模地對多語言語言模型進行預訓練可以顯著提高效能。在使用超過 2TB 的已過濾 CommonCrawl 資料的基礎上,研究者在 100 種語言上訓練了基於 Transformer 的掩模語言模型。該模型被稱為 XLM-R,在各種跨語言基準測試中,其效能顯著優於多語言 BERT(mBERT),其中 XNLI 的平均準確度為+ 13.8%,MLQA 的平均 F1 得分為+ 12.3%,而 FQ 的平均 F1 得分為+ 2.1% NER。XLM-R 在低資源語言上表現特別出色,與以前的 XLM 模型相比,斯瓦希里語(Swahili)的 XNLI 準確性提升了 11.8%,烏爾都語(Urdu)的準確性提升了 9.2%。研究者還對獲得這些提升所需的關鍵因素進行了詳細的實證評估,包括(1)積極轉移和能力稀釋;(2)大規模資源資源的高低效能之間的權衡。最後,他們首次展示了在不犧牲每種語言效能的情況下進行多語言建模的可能性。XLM-Ris 在 GLUE 和 XNLI 基準測試中具有強大的單語言模型,因此非常具有競爭力。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

圖 1:跨語言分類結果。研究者展示了各種模型在 15 中 XNLI 語言上的準確率以及平均準確率本文提出的 XLM-R 模型均取得了 SOTA 結果。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

表 1:各種模型在 CoNLL-2002 和 CoNLL-2003(F1 得分)上的命名實體識別結果。可以看出,本文提出的 XLM-R 模型在 nl 和 es 取得了 SOTA 結果。

推薦:Facebook 這篇論文提出的 XLM-R 模型是基於 Transformer 的掩模語言模型,其在多個跨語言理解基準測試中的結果都顯著優於 BERT(mBERT)。

論文 4:Understanding the Role of Momentum in Stochastic Gradient Methods

  • 作者:Igor Gitman、Hunter Lang、Pengchuan Zhang、Lin Xiao

  • 論文連結:https://arxiv.org/abs/1910.13962v1

摘要:隨機梯度方法中動量(momentum)的使用已成為機器學習領域的一種廣泛實踐。動量的不同變體,包括重球動量、Nesterov 加速梯度(Nesterovs』 Accelerated Gradient,NAG)和準雙曲線動量(quasi-hyperbolic momentum,QHM),已在各種任務上取得了成功。儘管在實證上取得了成功,但對動量引數如何影響收斂以及各種演算法的不同效能衡量指標缺乏清楚的瞭解。在本文中,研究者利用 QHM 的通用方法對幾種流行的演算法進行了統一分析,涵蓋了這些演算法的漸近收斂條件、穩定區域和平穩分佈的特性。另外,透過結合收斂速度和平穩分佈的結果,研究者有時會獲得反直覺的實際準則來設定學習率和動量引數。

推薦:這篇出自微軟研究院人工智慧中心(Microsoft Research AI)的論文詳細探討了隨機梯度中動量引數對收斂以及不同演算法中效能衡量指標的影響。

論文 5:The Visual Task Adaptation Benchmark

  • 作者:Xiaohua Zhai、Joan Puigcerver、Alexander Kolesnikov、Pierre Ruyssen 等

  • 論文連結:https://arxiv.org/abs/1910.04867

摘要:深度學習已經給計算機視覺領域帶來了諸多改變。其中,達到 SOTA 水平的深度網路能夠直接從原始畫素中學習有用的表徵,從而在眾多視覺任務上取得了前所未有的效能。但是,「從零開始」學習這些表徵通常需要大量的訓練樣本。為了解決這方面的問題,谷歌 AI 推出了「視覺任務適應性基準」(Visual Task Adaptation Benchmark,VTAB)。這是一個多樣性的、真實的和具有挑戰性的表徵基準。這一基準基於以下原則:在所需領域內資料有限的情況下,更好的表徵應當能夠在未見任務上實現更佳的效能。受啟發於推動其他機器學習領域進展的一些基準,如用於自然影像分類的 ImageNet、自然語言處理的 GLUE 和強化學習的 Atari,VTAB 遵循相似的準則:(i)對解決方案施加最小約束,以鼓勵創造性;(ii)注重實際;(iii)藉助挑戰性任務進行評估。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

VTAB 基準原理圖。

推薦:眾所周知,影像分類領域有 ImageNet 資料集,自然語言處理領域有 GLUE 基準,這些基準在對應領域的進展中發揮了重要作用。終於,谷歌推出了視覺任務適應性領域的基準 VTAB(Visual Task Adaptation Benchmark),該基準有助於使用者更好地理解哪些哪些視覺表徵可以泛化到更多其他的新任務上,從而減少所有視覺任務上的資料需求。

論文 6:The Eighty Five Percent Rule for optimal learning

  • 作者:Robert C. Wilson、Amitai Shenhav、Mark Straccia、Jonathan D. Cohen

  • 論文連結:https://www.nature.com/articles/s41467-019-12552-4

  • 專案地址:https://github.com/bobUA/EightyFivePercentRule

摘要:一直以來,研究人員和教育工作者都在思考一個問題:如何最好地教導他們的客戶——無論是人類、動物或者機器。在本文中,研究者檢驗了單一變數,即訓練難度,對學習率的影響。在很多情況下,他們發現存在一個「甜蜜點」,其中訓練既不是太簡單也沒有太困難,並且學習程式最快。研究者在二進位制分類任務情境下為一系列學習演算法的「甜蜜點」推匯出了條件。對於所有這些基於隨機梯度的學習演算法而言,他們發現訓練的最優誤差率約為 15.87%,反過來說,最優訓練準確率約為 85%。研究證明,『85% 規則』對 AI 中使用的人工神經網路和生物上可信的神經網路的效用被認為可以用來描述動物學習。研究證明了「85% 規則」對 AI 中使用的人工神經網路以及生物學上可信且被認為用於描述動物學習的神經網路的有效性。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

應用於感知器的「85% 規則」。a 橫座標表示每次訓練的誤差率(error rate),縱座標表示訓練次數(trial number)。圖中的顏色表示訓練出的網路的準確率,其中顏色越黃表示準確率越高,顏色越藍表示準確率越低;b 橫座標表示訓練數量,縱座標表示相對精度(relative precision),三條曲線分別表示 0.36、0.06 和 0.16 的誤差率。可以看出,當誤差率為 0.16 時,相對精度的增加是最快的。這說明 0.16(約為 15.87%)為訓練中的最優誤差率。

推薦:這是一篇發表在 Nature Communications 上的論文,詳細介紹了最優學習的 85% 規則。

論文 7:Confident Learning: Estimating Uncertainty in Dataset Labels

  • 作者:Curtis G. Northcutt、Lu Jiang、Isaac L. Chuang

  • 論文連結:https://arxiv.org/abs/1911.00068

  • 專案地址:https://pypi.org/project/cleanlab/

摘要:學習存在於資料語境中,而置信概念通常注重模型預測,而不是標籤質量。基於修剪噪聲資料、計數以估計噪聲以及示例排序以進行置信訓練的原則,置信學習(Confident Learning,CL)已經成為一種表徵、識別和學習資料集中噪聲標籤的方法。在本文中,研究者基於分類噪聲過程的假設對 CL 進行泛化,以直接估計噪聲(給定)標籤和純淨(未知)標籤之間的聯合分佈。這種泛化的 CL 作為 cleanlab 進行開源,在合理的條件下被證明是一致的,並在 ImageNet 和 CIFAR 資料集上具有實驗效能,優於最近的方法,例如當標籤噪聲非均勻時,效能高出 MentorNet30%或更多。cleanlab 還可以量化本體論類重疊,並可以透過提供純淨資料進行訓練來提升模型的準確性(如 ResNet)。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

圖 1:置信學習(CL)流程以及置信節點7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則 和估計聯合分佈7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則的示例。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

圖 2:研究者對具有 40% 標籤噪聲和 60% 稀疏性的 CIFAR 進行聯合分佈標籤噪聲估計。

推薦:這篇出自麻省理工學院和谷歌的論文透過對分類噪聲的假設對置信學習(CL)進行泛化,實現了對噪聲標籤和純淨標籤之間聯合分佈的直接估計。

7 papers|EMNLP 2019最佳論文;Facebook語言模型XLM-R取得SOTA結果;最優學習的85%規則

相關文章