ICLR 2021投稿中值得一讀的NLP相關論文

PaperWeekly發表於2020-11-10

我們從 ICLR 2021開放投稿的3000篇論文中,粗略篩選了近100篇與自然語言處理領域中也許值得一讀的論文,供大家查閱。

  • 理論、模型與經驗性分析:38篇
  • 問答與閱讀理解:4篇
  • 知識圖譜:4篇
  • 文字生成:9篇
  • 機器翻譯:7篇
  • 對抗攻擊:4篇
  • 文字分類:2篇
  • 資訊抽取:4篇
  • 可解釋性:1篇
  • 模型壓縮與整合:4篇
  • 資料增強:2篇
  • 向量表示:12篇
  • 其他:5篇

注,由於論文過多,故直接使用谷歌翻譯機翻了論文部分摘要作為文章主旨的參考(結果表明,NMT仍然有極大發展空間),對於過於離譜的翻譯轉為人工校對。之後我們會陸續選取部分文章進行詳細介紹,其中的不便還望讀者諒解。

一、理論、模型與經驗性分析

論文標題:Isotropy in the Contextual Embedding Space: Clusters and Manifolds

論文連結:https://openreview.net/forum?id=xYGNO86OWDH

論文摘要:近年來,諸如BERT和ERNIE的深度語言模型的上下文嵌入空間的幾何特性引起了相當大的關注。對上下文嵌入的研究表明,強烈的各向異性空間使得大多數向量都落在一個狹窄的圓錐體中,從而導致較高的餘弦相似度。在本文中,我們認為從不同但更具建設性的角度來看,各向同性確實存在於空間中。我們在上下文嵌入空間中識別孤立的簇和低維流形,並介紹工具進行定性和定量分析。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Hopfield Networks is All You Need

論文連結:https://openreview.net/forum?id=tL89RnzIiCd

論文摘要:我們介紹了具有連續狀態和相應更新規則的現代Hopfield網路。新的Hopfield網路可以按指數形式(按維度)儲存許多模式,一次更新即可收斂,並且檢索誤差呈指數形式。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:VECO: Variable Encoder-Decoder Pretraining for Cross-Lingual Understanding and Generation

論文連結:https://openreview.net/forum?id=YjNv-hzM8BE

論文摘要:本文提出可變的編碼器-解碼器預訓練方法,將Transformer的三個主要模組分開,對不同的預訓練任務加以組合,然後再對下游任務微調。不但可以節約引數,還能取得較好的效果。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:AlgebraNets

論文連結:https://openreview.net/forum?id=guEuB3FPcd

論文摘要:常規的神經網路由實值加權和啟用以及實值運算元組成。我們提出了AlgebraNets,這是一種一般正規化,可以用其他方式從其他關聯代數中替換權重和運算子來代替實際價值權重和運算子。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets

論文連結:https://openreview.net/forum?id=I-VfjSBzi36

論文摘要:在本文中,我們提出了EarlyBERT,這是用於大規模語言模型預訓練和微調的有效訓練框架。EarlyBERT會在早期階段識別結構化的中獎彩票,然後使用經過修剪的網路進行有效訓練。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Variational Information Bottleneck for Effective Low-Resource Fine-Tuning

論文連結:https://openreview.net/forum?id=kvhzKz-_DMF

論文摘要:我們建議在對低資源目標任務進行微調時使用變分資訊瓶頸(VIB)來抑制不相關的功能,並表明我們的方法成功地減少了過擬合。此外,我們表明,我們的VIB模型發現的句子表示形式對自然語言推理資料集中的偏倚更為魯棒,從而獲得了對域外資料集的更好概括。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines

論文連結:https://openreview.net/forum?id=AVKFuhH1Fo4

論文摘要:在本文中,我們提出了一個新的視角,以瞭解Transformer的工作方式。尤其是,我們證明了可以將Transformer操作的核心點積注意力描述為一對Banach空間上的核學習方法。特別是,Transformer的核心具有無限的特徵尺寸。在此過程中,我們將標準核心學習問題概括為所謂的“二進位制”核心學習問題,其中資料來自兩個輸入域,並且為每個跨域對定義了一個響應。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Pretrain Knowledge-Aware Language Models

論文連結:https://openreview.net/forum?id=OAdGsaptOXy

論文摘要:在本文中,我們將知識意識納入語言模型預訓練中,而無需更改Transformer架構,插入明確的知識層或新增語義資訊的外部儲存。相反,我們只是透過實體擴充套件的標記器在預訓練中向Transformer的輸入簡單地表示實體的存在。在輸出處,還有一個額外的實體預測任務。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Structured Prediction as Translation between Augmented Natural Languages

論文連結:https://openreview.net/forum?id=US-TP-xnXI

論文摘要:我們提出了一個新的框架,即增強自然語言之間的翻譯(TANL),以解決許多結構化預測語言任務,包括聯合實體和關係提取巢狀命名實體識別關係分類,語義角色標籤,事件提取,共指解析和對話狀態跟蹤。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Information-theoretic Vocabularization via Optimal Transport

論文連結:https://openreview.net/forum?id=1fLunL_hDj_

論文摘要:我們發現資訊理論功能與NLP任務(例如具有給定詞彙的機器翻譯)的效能之間存在令人興奮的關係。透過這種觀察,我們將找到具有適當大小的最佳令牌詞典作為最佳傳輸問題。然後,我們提出info-VOT,這是一種簡單有效的解決方案,無需對下游任務進行全面且昂貴的試用訓練。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

論文連結:https://openreview.net/forum?id=n1HD8M6WGn

論文摘要:在本文中,我們的主要貢獻是進一步瞭解EncoderFusion。我們發現編碼器嵌入層比其他中間編碼器層更重要。此外,最上層的解碼器層始終在NLP任務中更加關注編碼器嵌入層。基於此觀察,我們透過僅融合softmax層的編碼器嵌入層,提出了一種簡單的融合方法SurfaceFusion。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:On Position Embeddings in BERT

論文連結:https://openreview.net/forum?id=onxoVA9FxMw

論文摘要:我們提出了在向量空間中捕獲單詞距離的PE的三個預期特性:平移不變性,單調性和對稱性。這些屬性可以正式捕獲PE的行為,並允許我們以有原則的方式重新解釋正弦PE。對七個PE(及其組合)進行分類和跨度預測的經驗評估表明,可完全學習的絕對PE在分類中表現更好,而相對PE在跨度預測中表現更好。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining

論文連結:https://openreview.net/forum?id=sxZvLS2ZPfH

論文摘要:我們首先提出一種新穎的方法,藉助中文分詞(CWS)和子詞標記化來形成中文BERT的詞彙。然後,我們提出了三種版本的多詞彙量預訓練(MVP),以提高模型的表達能力。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Progressively Stacking 2.0: A multi-stage layerwise training method for BERT training speedup

論文連結:https://openreview.net/forum?id=2LiGI26kRdt

論文摘要:我們提出了一種有效的多階段分層訓練(MSLT)方法,以減少BERT的訓練時間。我們將整個訓練過程分解為幾個階段。訓練從只有幾個編碼器層的小模型開始,然後我們透過新增新的編碼器層來逐漸增加模型的深度。在每個階段,我們只訓練最頂層(在輸出層附近)幾個新新增的編碼器層。該方法可以大大減少訓練時間,而不會明顯降低效能。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

論文連結:https://openreview.net/forum?id=tqc8n6oHCtZ

論文摘要:我們訓練一個大型Transformer,稱為“長度自適應Transformer”,並將其用於各種推理場景而無需重新訓練。為此,我們使用LengthDrop訓練Transformer,它隨機確定每一層序列的長度。然後,我們使用多目標進化搜尋來找到長度配置,該長度配置可在任何給定的計算預算下最大化準確性並最小化計算複雜性。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines

論文連結:https://openreview.net/forum?id=nzpLWnVAyah

論文摘要:確定了觀察到BERT微調不穩定的兩個潛在原因:災難性的遺忘和微調資料集的小規模。在本文中,我們證明了這兩種假設都無法解釋微調的不穩定性。我們分析了BERT,RoBERTa和ALBERT,並根據GLUE基準對常用資料集進行了微調,並表明觀察到的不穩定性是由導致梯度消失的最佳化困難引起的。此外,我們表明,下游任務效能的剩餘差異可以歸因於泛化差異,其中具有相同訓練損失的微調模型表現出明顯不同的測試效能。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Learning Better Structured Representations Using Low-rank Adaptive Label Smoothing

論文連結:https://openreview.net/forum?id=5NsEIflpbSv

論文摘要:我們提出了低階自適應標籤平滑(LORAS):一種簡單而新穎的方法,用於對學習的軟目標進行訓練,該方法可以概括標籤平滑並適應結構化預測任務中標籤空間的潛在結構。具體來說,我們評估了我們針對面向任務的語義解析任務的方法,並表明,與適當的普通標籤平滑相比,僅透過使用適當平滑的軟目標進行訓練,就可以將模型的準確性提高多達2%,並將校準錯誤減少55%平滑。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Multi-Head Attention: Collaborate Instead of Concatenate

論文連結:https://openreview.net/forum?id=bK-rJMKrOsm

論文摘要:注意層廣泛用於自然語言處理(NLP)中,並開始影響計算機視覺體系結構。但是,它們遭受過度引數化的困擾。我們提出了一個協作的多頭關注層,該層使學習者能夠學習共享的預測。我們的方案減少了注意層中的引數數量,並且可以用作任何Transformer體系結構中的替代品。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Sequence-Level Features: How GRU and LSTM Cells Capture N-grams

論文連結:https://openreview.net/forum?id=Au1gNqq4brw

論文摘要:現代的遞迴神經網路(RNN),如門控遞迴單元(GRU)和長短期記憶(LSTM),已在涉及順序資料的實踐中證明了令人印象深刻的結果。我們提出了一項研究,透過數學擴充套件和展開隱藏狀態來理解GRU / LSTM單元捕獲的基本特徵。具體而言,我們表明在某些溫和的假設下,Cell的基本成分將由類似於N-gram的序列級特徵組成。基於這樣的發現,我們還發現,用近似的隱藏狀態表示替換標準單元並不一定會降低情感分析和語言建模任務的效能。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

論文連結:https://openreview.net/forum?id=7K0UUL9y9lE

論文摘要:我們表明,基於區域性敏感雜湊(LSH)的伯努利抽樣注意機制,將二次複雜度降低為線性。我們透過將自我注意力視為與伯努利隨機變數相關聯的單個標記的總和來繞過二次成本,原則上可以透過單個雜湊一次對其進行取樣(儘管實際上,此數字可能是一個小常數)。這導致一種有效的抽樣方案來估計自我注意力,該方案依賴於LSH的特定修改(基於在GPU架構上部署的可行性)。我們在GLUE基準上以標準的512序列長度評估了我們提出的演算法,並且我們的方法與標準的預訓練Transformer相比具有可比甚至更好的效能。為了評估我們的方法是否確實可以處理更長的序列,我們在長序列(4096)語言模型預訓練上進行了實驗,並獲得了一致的結果,作為標準的自我注意,同時觀察到了相當大的推理速度和記憶體節省。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Representational correlates of hierarchical phrase structure in deep language models

論文連結:https://openreview.net/forum?id=mhEd8uOyNTI

論文摘要:儘管基於Transformer的體系結構的上下文表示為許多NLP任務設定了新的標準,但尚未完全瞭解其內部工作原理。特別是,尚不清楚這些表示法捕獲了句子級語法的哪些方面,也不清楚(如果有的話)它們是如何沿著網路的堆疊層構建的。在本文中,我們旨在透過基於輸入擾動的通用類分析來解決此類問題。從計算和認知神經科學中引入表示不變性的概念,我們執行了一系列旨在測試Transformer表示對句子中幾種結構的敏感性的探針。每個探查都涉及交換句子中的單詞,並將被干擾的句子中的表示與原始表達進行比較。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Why is Attention Not So Interpretable?

論文連結:https://openreview.net/forum?id=pQhnag-dIt

論文摘要:本文從因果效應估計的角度分析了為什麼有時注意機制無法提供可解釋的結果,並提供了兩種方法來提高注意機制的可解釋性。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Revisiting Few-sample BERT Fine-tuning

論文連結:https://openreview.net/forum?id=cO1IH43yUF

論文摘要:本文是對BERT上下文表示的微調研究,重點是在少數樣本情況下通常觀察到的不穩定性。我們確定了導致這種不穩定的幾個因素:帶有偏斜估計的非標準最佳化方法的普遍使用;BERT網路的重要部分在下游任務中的適用性有限;以及使用預定的少量訓練迭代的普遍做法。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Later Span Adaptation for Language Understanding

論文連結:https://openreview.net/forum?id=HMEiDPTOTmY

論文摘要:我們提出了一種新穎的方法,該方法將跨度資訊組合到微調階段的PrLM生成的表示中,以提供更好的靈活性。這樣,跨度級別文字的建模過程可以更適應於不同的下游任務。詳細地說,我們根據預取樣字典生成的分段將句子分為幾個跨度。基於PrLM提供的子令牌級別表示,我們增強了每個跨度中令牌之間的連線,並獲得具有增強的跨度級別資訊的表示。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:DeLighT: Deep and Light-weight Transformer

論文連結:https://openreview.net/forum?id=ujmgfuxSLrO

論文摘要:本文提出DeLight,一種輕巧的深度Transformer,可在標準機器翻譯和語言建模任務中將引數降低或降低2至3倍,從而達到或提高基準Transformer的效能。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking

論文連結:https://openreview.net/forum?id=WznmQa42ZAx

論文摘要:我們介紹了一種事後方法來解釋GNN的預測,該方法可以識別不必要的邊。給定訓練的GNN模型,我們將學習一個簡單的分類器,該分類器可針對每一層的每個邊預測是否可以丟棄該邊。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Adaptive Self-training for Neural Sequence Labeling with Few Labels

論文連結:https://openreview.net/forum?id=ARFshOO1Iu

論文摘要:我們開發了自訓練和元學習技術來解決神經序列標籤模型的標籤稀缺性挑戰。自我訓練是從大量未標記資料中學習的有效機制,而元學習可幫助對樣本進行自適應加權,從而減輕了嘈雜的偽標記的錯誤傳播。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Random Feature Attention

論文連結:https://openreview.net/forum?id=QtTKTdVrFBB

論文摘要:我們提出了一種基於隨機特徵的注意力,該注意力在序列長度上線性擴充套件,並且在語言建模和機器翻譯方面與強大的Transformer基線相當。

ICLR 2021投稿中值得一讀的NLP相關論文

論文標題:Learning to Disentangle Textual Representations and Attributes via Mutual Information

論文連結:https://openreview.net/forum?id=qJIvFn8sOs

論文摘要:我們調查了學習透過相互資訊最小化來解開文字表示形式和屬性的問題,並將其應用於公平分類和句子生成。

ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Synthesizer: Rethinking Self-Attention for Transformer Models

論文連結:https://openreview.net/forum?id=H-SPvQtMwm

論文摘要:我們提出合成注意力矩陣,並實現簡單,高效和有競爭力的表現。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:The Lipschitz Constant of Self-Attention

論文連結:https://openreview.net/forum?id=DHSNrGhAY7W

論文摘要:理論研究表明,標準點積的自注意力不是Lipschitz,並且提供了基於L2距離的Lipschitz的自我注意的替代表達。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

論文連結:https://openreview.net/forum?id=CLnj31GZ4cI

論文摘要:我們提出K-Adapter,它保持了預先訓練模型的原始引數不變,並支援持續的知識注入。以RoBERTa為預訓練模型,K-Adapter具有用於每種注入的知識的神經介面卡,在不同的介面卡之間沒有資訊流,因此以分散式方式有效地訓練了不同的介面卡。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Rethinking Positional Encoding in Language Pre-training

論文連結:https://openreview.net/forum?id=09-528y2Fgf

論文摘要:在這項工作中,我們研究了語言預訓練中使用的位置編碼方法(例如BERT),並確定了現有公式中的幾個問題。我們提出了一種新的位置編碼方法,TUPE。在自我注意模組中,TUPE使用不同的引數化分別計算單詞上下文相關性和位置相關性,然後將它們加在一起。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Rethinking Attention with Performers

論文連結:https://openreview.net/forum?id=Ua6zuk0WRH

論文摘要:我們介紹了Performer,僅使用線性(而不是二次)空間和時間複雜度,而無需依賴於諸如稀疏性或低等級的先驗條件。為了近似softmax注意力核心,Performer使用一種新穎的透過正正交隨機特徵方法(FAVOR +)實現的快速注意力,它對於可擴充套件核心方法可能是獨立關注的。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Efficiently labelling sequences using semi-supervised active learning

論文連結:https://openreview.net/forum?id=BHBb-QVVkNS

論文摘要:我們提出一種使用主動學習的序列標記方法,該方法結合了標記和未標記的資料。我們以半監督的方式訓練具有深層非線性潛力的區域性上下文條件隨機場,將未標記句子的缺失標記視為潛在變數。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Taking Notes on the Fly Helps Language Pre-Training

論文連結:https://openreview.net/forum?id=lU5Rs_wCweN

論文摘要:我們採用“動態記錄”(TNF),它會在預訓練期間即時記錄稀有單詞,以幫助模型在下次出現時理解它們。具體而言,TNF會維護註釋詞典,並在句子中出現稀有單詞時將稀有單詞的上下文資訊儲存為註釋。當在訓練過程中再次出現相同的稀有單詞時,可以使用事先儲存的筆記資訊來增強當前句子的語義。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Reservoir Transformers

論文連結:https://openreview.net/forum?id=5FRJWsiLRmA

論文摘要:我們證明,即使某些層被隨機初始化並且從未更新,Transformer也能獲得令人印象深刻的效能。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data

論文連結:https://openreview.net/forum?id=de11dbHzAMF

論文摘要:我們提出了一種基於Transformer的新型體系結構,該體系結構由新的條件注意機制以及一組有助於權重分配的任務條件模組組成。透過這種構造,我們可以透過保持固定的預訓練模型權重的一半固定來實現更有效的引數共享並減輕遺忘。我們還使用一種新的多工資料取樣策略來減輕跨任務資料不平衡的負面影響。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

問答與閱讀理解


論文標題:Is Retriever Merely an Approximator of Reader?

論文連結:https://openreview.net/forum?id=dvXFpV6boX

論文摘要:開放域問答(QA)的最新技術依賴於有效的檢索器,該檢索器可大大減少昂貴閱讀器的搜尋空間。在社群中,一個相當被忽視的問題是檢索者和讀者之間的關係,特別是如果檢索者的全部目的僅僅是讀者的快速近似。我們的經驗證據表明答案是否定的,即使僅在準確性方面,閱讀器和檢索器也是互補的。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Cluster-Former: Clustering-based Sparse Transformer for Question Answering

論文連結:https://openreview.net/forum?id=VyENEGiEYAQ

論文摘要:在本文中,我們提出了Cluster-Former,這是一種新穎的基於聚類的稀疏Transformer,可在分塊序列之間進行關注。所提出的框架集中在兩種獨特的Transformer層型別上:滑動視窗層和Cluster-Former層,它們共同並迭代地編碼區域性序列資訊和全域性上下文。這種新設計允許在本地視窗之外進行資訊整合,這對於依賴於遠端依賴關係的問答(QA)任務特別有用。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Open Question Answering over Tables and Text

論文連結:https://openreview.net/forum?id=MmCRswl1UYl

論文摘要:我們提出了透過網路表格和文字回答開放域問題的新任務,並設計了新技術:1)融合檢索2)跨塊閱讀器,以解決新任務帶來的挑戰。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Uncertainty-Based Adaptive Learning for Reading Comprehension

論文連結:https://openreview.net/forum?id=s4D2nnwCcM

論文摘要:我們提出了一種用於閱讀理解的基於不確定性的自適應學習演算法,該演算法將資料註釋和模型更新交織在一起,以減輕標籤的需求。


ICLR 2021投稿中值得一讀的NLP相關論文

ICLR 2021投稿中值得一讀的NLP相關論文

知識圖譜


論文標題:Learning Contextualized Knowledge Graph Structures for Commonsense Reasoning

論文連結:https://openreview.net/forum?id=lJuOUWlAC8i

論文摘要:在本文中,我們提出了一種新的神經符號方法,稱為混合圖網路(HGN),該方法可聯合生成新三元組的特徵表示(作為對KG中現有邊緣的補充),確定三元組與推理環境的相關性,並學習用於對關係資訊進行編碼的圖形模型引數。我們的方法透過過濾對推理過程無用的邊來學習緊湊的圖結構(包含檢索的邊和生成的邊)。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Language Models are Open Knowledge Graphs

論文連結:https://openreview.net/forum?id=aRTRjVPkm-

論文摘要:本文介紹了由預先訓練的語言模型(例如BERT,GPT-2)構建的知識圖(KGs),無需人工監督。在本文中,我們提出了一種無監督的方法來將語言模型中的學習知識作為KG進行回憶。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Interpreting Knowledge Graph Relation Representation from Word Embeddings

論文連結:https://openreview.net/forum?id=gLWj29369lW

論文摘要:基於對詞嵌入的最新理論理解,我們將知識圖關係分為三種型別,每種型別都推導了它們表示的明確要求。我們表明,關係表示的經驗性質和領先的知識圖表示方法的相對效能透過我們的分析是合理的。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:QuatRE: Relation-Aware Quaternions for Knowledge Graph Embeddings

論文連結:https://openreview.net/forum?id=hga0T0Qcli5

論文摘要:我們提出了一種有效的嵌入模型QuatRE,以學習知識圖中實體和關係的四元數嵌入。QuatRE的目的是在四元數空間內具有漢密爾頓積的關係下增強頭和尾實體之間的相關性。QuatRE透過進一步將每個關係與兩個關係感知的四元數向量(分別用於旋轉頭和尾實體的四元數嵌入)相關聯來實現此目標。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:JAKET: Joint Pre-training of Knowledge Graph and Language Understanding

論文連結:https://openreview.net/forum?id=SOVSJZ9PTO7

論文摘要:一個聯合的預訓練框架,可以同時對知識圖和文字進行建模,並且可以在微調期間輕鬆適應新領域中看不見的知識圖。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

文字生成


論文標題:CoCon: A Self-Supervised Approach for Controlled Text Generation

論文連結:https://openreview.net/forum?id=VD_ozqvBy4W

論文摘要:我們使用Content-Conditioner(CoCon)來以細粒度級別控制具有內容輸入的LM的輸出文字。在我們的自我監督方法中,CoCon塊學習透過以LM保留的內容輸入為條件來幫助LM完成部分可觀察的文字序列。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:GeDi: Generative Discriminator Guided Sequence Generation

論文連結:https://openreview.net/forum?id=TJSOfuZEd1B

論文摘要:我們使用GeDi作為將較小的LM用作生成鑑別符的有效方法,以指導大型LM的生成,使其更安全,更可控。GeDi透過對兩個類條件分佈進行歸一化,透過貝葉斯規則計算所有可能的下一個標記的分類機率,從而指導每一步的生成;一個以期望的屬性或控制程式碼為條件,而另一個以不期望的屬性或反控制程式碼為條件。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:A Distributional Approach to Controlled Text Generation

論文連結:https://openreview.net/forum?id=jWkw45-9AbL

論文摘要:我們提出了一種分散式方法來解決從預訓練的語言模型(LM)生成受控文字的問題。這種觀點允許在單個正式框架中定義目標LM的“逐點”約束和“分佈”約束,同時將初始LM的KL差異最小化分配。然後,將最佳目標分佈唯一確定為明確的EBM(基於能量的模型)表示。從最佳表示中,我們然後透過策略梯度的自適應分佈變數訓練目標受控自迴歸LM。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Resurrecting Submodularity for Neural Text Generation

論文連結:https://openreview.net/forum?id=FVhZIBWqykk

論文摘要:我們定義了具有亞模組功能的一類新穎的注意力機制,進而證明了有效神經覆蓋的亞模組性。所得的注意模組提供了一種體系結構簡單且憑經驗有效的方法,可改善神經文字生成的覆蓋範圍。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation

論文連結:https://openreview.net/forum?id=JAlqRs9duhz

論文摘要:我們基於梯度分析提出了對MLE的簡單修改,並在不同任務中對Token級退化進行了重大改進。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:A Text GAN for Language Generation with Non-Autoregressive Generator

論文連結:https://openreview.net/forum?id=wOI9hqkvu_

論文摘要:我們提出了帶有非自迴歸生成器的文字GAN,可以使用基於梯度的方法從頭開始對其進行有效訓練,並將其應用於需要潛在變數的文字生成應用程式。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Pre-training Text-to-Text Transformers to Write and Reason with Concepts

論文連結:https://openreview.net/forum?id=3k20LAiHYL2

論文摘要:為了增強常識性的預訓練語言模型,我們提出了生成性和對比性目標,作為一般預訓練和下游特定任務的微調之間的中間自我監督式預訓練任務。我們還提出了一個聯合訓練框架,以統一生成目標和對比目標,從而使這些目標更加有效。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:TextSETTR: Label-Free Text Style Extraction and Tunable Targeted Restyling

論文連結:https://openreview.net/forum?id=T6RYeudzf1

論文摘要:我們提出了一種在完全沒有標籤的情況下訓練樣式轉移模型的技術,並顯示了生成的模型可以在測試時控制許多不同的樣式屬性(情感,方言,形式等)。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Contrastive Learning with Adversarial Perturbations for Conditional Text Generation

論文連結:https://openreview.net/forum?id=Wga_hrCa3P3

論文摘要:我們透過將正對與負對進行對比來解決條件文字生成問題,從而使模型暴露於輸入的各種有效或不正確的擾動下,以提高通用性。我們透過還在輸入序列中新增較小的擾動以最小化其條件可能性來生成否定示例,並透過在施加較大的擾動的同時將其強制具有較高的條件可能性來生成正示例。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

機器翻譯


論文標題:Learning to Use Future Information in Simultaneous Translation

論文連結:https://openreview.net/forum?id=YjXnezbeCwG

論文摘要:我們提出了一種同時翻譯的新方法,該方法由控制器(透過強化學習進行訓練)指導,可以自適應地利用將來的資訊來提高翻譯質量。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Self-supervised and Supervised Joint Training for Resource-rich Machine Translation

論文連結:https://openreview.net/forum?id=1yDrpckYHnN

論文摘要:自我監督的文字表示形式的預訓練已成功應用於低資源神經機器翻譯(NMT)。但是,它通常無法在資源豐富的NMT上獲得顯著收益。在本文中,我們提出了一種聯合訓練方法F2-XEnDec,以結合自我監督和監督學習來最佳化NMT模型。為了利用互補的自我監督訊號進行監督學習,NMT模型在樣本上進行了訓練,這些樣本是透過一種稱為交叉編碼器/解碼器的新過程從單語和並行句子中雜交而來的。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Hybrid-Regressive Neural Machine Translation

論文連結:https://openreview.net/forum?id=jYVY_piet7m

論文摘要:當使用小批次時,具有多次迭代的常規非自迴歸翻譯不能加速解碼,因此我們提出了混合迴歸翻譯(HRT)來解決此問題。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models

論文連結:https://openreview.net/forum?id=F1vEjWK-lH_

論文摘要:在本文中,我們嘗試透過損失函式幾何的形式窺視多語言最佳化的黑匣子。我們發現沿最佳化軌跡測得的梯度相似度是一個重要訊號,不僅與語言接近度而且與整體模型效能都很好地相關。這樣的觀察有助於我們發現現有基於梯度的多工學習方法的關鍵侷限性,因此,我們得出了一個簡單且可擴充套件的最佳化程式,名為“梯度疫苗”,該方法鼓勵針對完成任務的幾何排列引數更新。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Meta Back-Translation

論文連結:https://openreview.net/forum?id=3jjmdp7Hha

論文摘要:在本文中,我們提出了一種生成偽並行資料以進行反翻譯的新方法,該方法可直接最佳化最終模型的效能。具體來說,我們提出了一種元學習框架,其中反向翻譯模型學習將開發資料上的正向翻譯模型的梯度與偽並行資料上的梯度進行匹配。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Nearest Neighbor Machine Translation

論文連結:https://openreview.net/forum?id=7wCBOfJ8hJM

論文摘要:我們使用最近的鄰居分類器擴充套件了經過預訓練的機器翻譯模型的解碼器,從而在沒有任何其他訓練的情況下,極大地提高了單語言對,多語言和領域自適應設定下的效能。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation

論文連結:https://openreview.net/forum?id=KpfasTaLUpq

論文摘要:我們研究具有不同深度的編碼器和解碼器的自迴歸模型。在給定足夠深的編碼器的情況下,單層自迴歸解碼器可以以可比的推理速度大大勝過強大的非自迴歸模型。我們表明,與非自迴歸方法相比,自迴歸基線的速度劣勢在三個方面被高估了:欠佳的層分配,速度測量不足和缺乏知識提煉。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

對抗攻擊


論文標題:Grey-box Extraction of Natural Language Models

論文連結:https://openreview.net/forum?id=cotg54BSX8

論文摘要:在本文中,我們介紹了在灰盒設定中針對大規模自然語言模型的代數攻擊,其目標模型是經過預先訓練的(公共)編碼器,然後是單個(私有)分類層。我們的主要觀察結果是,一小組任意的嵌入向量很可能構成分類層輸入空間的基礎,而灰匣子對手可以計算輸入空間。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective

論文連結:https://openreview.net/forum?id=hpH98mK5Puk

論文摘要:我們提出了一種新穎的學習框架InfoBERT,用於從資訊理論的角度對預訓練語言模型進行魯棒的微調,並在NLI和QA任務的多個對抗性資料集上實現了最新的魯棒性。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Towards Robustness Against Natural Language Word Substitutions

論文連結:https://openreview.net/forum?id=ks5nebunVn_

論文摘要:我們介紹了一種新穎的對抗性稀疏凸組合(ASCC)方法。我們將單詞替換攻擊空間建模為凸包,並利用正則化項對實際替換實施擾動,從而使我們的建模與離散文字空間更好地保持一致。基於ASCC方法,我們進一步提出了ASCC防禦,該防禦利用ASCC生成最壞情況的擾動並將對抗性訓練納入魯棒性。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Better Fine-Tuning by Reducing Representational Collapse

論文連結:https://openreview.net/forum?id=OQ08SN70M1V

論文摘要:我們提出了一種對標準微調的輕量級增強功能,用引數噪聲(從正態分佈或均勻分佈取樣)替換了以前使用的對抗目標,從而在可能的情況下阻止了微調過程中的表示變化而不會損害效能。其效能優於整體方法,同時在計算上比其他微調方法廉價。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

文字分類


論文標題:Neural Text Classification by Jointly Learning to Cluster and Align

論文連結:https://openreview.net/forum?id=PTG9NdIn3wt

論文摘要:分佈文字聚類提供語義上有意義的表示,並捕獲每個單詞與語義聚類質心之間的相關性。我們透過潛在變數模型誘導聚類中心並與分佈詞嵌入進行互動,從而將神經文字聚類方法擴充套件到文字分類任務,以豐富標記的表示並測量標記與每個可學習的聚類質心之間的相關性。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Cluster & Tune: Enhance BERT Performance in Low Resource Text Classification

論文連結:https://openreview.net/forum?id=Oz_4sa7hKhl

論文摘要:我們建議在調優之前和對BERT進行預訓練之後新增一個無監督的中間分類步驟,並表明它可以提高資料受限情況下的效能。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

資訊抽取


論文標題:Counterfactual Thinking for Long-tailed Information Extraction

論文連結:https://openreview.net/forum?id=xYJpCgSZff

論文摘要:資訊提取(IE)旨在從非結構化文字中提取結構化資訊。但是,在實踐中,長尾資料不平衡可能會導致深度學習模型出現嚴重的偏差問題,這是因為用於尾類的訓練例項很少。為此,我們提出了一種基於語言結構和因果推理的新穎框架(名為Counterfactual-IE)三個關鍵成分。首先,透過將語法資訊融合到各種主流的IE任務的結構化因果模型中,包括關係提取(RE),命名實體識別(NER)和事件檢測(ED),我們的方法能夠從不平衡的資料集。其次,基於事實語言結構生成反事實,以更好地計算推斷階段的直接影響。第三,我們提出了一種靈活的去偏方法,以便在推理階段進行更可靠的預測。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Prototypical Representation Learning for Relation Extraction

論文連結:https://openreview.net/forum?id=aCgLmfhIy_f

論文摘要:本文旨在從文字資料中學習預測性,可解釋性和魯棒性的關係表示形式,這些表示形式在不同的情況下均有效,包括監督學習,遠端監督學習和few-shot學習。我們建議不要從上下文資訊中推斷每個關係的潛在原型,而不是僅僅依靠標籤的監督,以最好地探索關係的內在語義。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

論文連結:https://openreview.net/forum?id=5jRVa89sZk

論文摘要:透過對綜合資料集進行的經驗研究,我們發現了效能下降的兩個原因。一種是減少帶註釋的實體,另一種是將未標記的實體視為否定例項。我們提出了一種通用方法,該方法能夠消除未標記實體帶來的誤導。核心思想是使用負取樣將未標記實體進行訓練的機率保持在非常低的水平。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Segmenting Natural Language Sentences via Lexical Unit Analysis

論文連結:https://openreview.net/forum?id=PQlC91XxqK5

論文摘要:在這項工作中,我們提出了詞法單元分析(LUA),這是用於一般序列分割任務的框架。給定自然語言句子後,LUA會為所有有效的細分候選者評分,並利用動態程式設計(DP)來提取得分最高的一個。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

可解釋性


論文標題:Unsupervised Discovery of Interpretable Latent Manipulations in Language VAEs

論文連結:https://openreview.net/forum?id=DGttsPh502x

論文摘要:在這項工作中,我們邁出了在語言潛在空間中無監督地解釋可理解方向的第一步。令人驚訝地,我們發現在訓練資料的VAE表示上執行PCA始終優於沿座標和隨機方向的移動。這種方法簡單,可適應資料,不需要訓練,並且可以發現有意義的方向。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

模型壓縮與整合


論文標題:MixKD: Towards Efficient Distillation of Large-scale Language Models

論文連結:https://openreview.net/forum?id=UFGEelJkLu5

論文摘要:我們使用資料混合蒸餾框架MixKD,該框架利用簡單而有效的資料擴充方法Mixup,為生成的模型賦予更強的泛化能力。具體而言,除了原始的訓練示例外,還鼓勵學生模型在示例對的線性插值上模仿老師的行為。我們從理論上證明,MixKD在泛化誤差和經驗誤差之間產生了較小的差距。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Task-Agnostic and Adaptive-Size BERT Compression

論文連結:https://openreview.net/forum?id=wZ4yWvQ_g2y

論文摘要:我們提出了NAS-BERT,它利用神經結構搜尋對自適應模型大小和跨下游任務的BERT壓縮。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Knowledge Distillation based Ensemble Learning for Neural Machine Translation

論文連結:https://openreview.net/forum?id=dGF96IxczpW

論文摘要:我們為NMT提出了一種基於知識蒸餾的整合學習方法,可以將多個模型的知識彙總到一個模型中。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Structural Knowledge Distillation

論文連結:https://openreview.net/forum?id=3Jldbtfqfa

論文摘要:在本文中,我們推導了用於結構化預測的知識蒸餾目標的因式分解形式,對於教師和學生模型的許多典型選擇而言,該形式易於處理。特別是,我們展示了在四種不同情況下,序列標籤和依賴關係解析模型之間的結構知識精煉的可操作性和經驗有效性:1)師生共享輸出結構評分函式的相同分解形式;2)與教師分解相比,學生分解產生的子結構更小;3)教師分解比學生分解產生的子結構小;4)教師和學生的因式分解形式不相容。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

資料增強


論文標題:CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding

論文連結:https://openreview.net/forum?id=Ozk9MrX1hvA

論文摘要:在本文中,我們提出了一種名為CoDA的新型資料增強框架,該框架透過有機地整合多個轉換來合成各種資訊豐富的增強示例。此外,引入了對比正則化以捕獲所有資料樣本之間的全域性關係。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:XLA: A Robust Unsupervised Data Augmentation Framework for Cross-Lingual NLP

論文連結:https://openreview.net/forum?id=w5uur-ZwCXn

論文摘要:我們提出了XLA,這是一種在零資源轉移學習場景中用於自我監督學習的新穎資料增強框架。特別地,假設目標語言任務中沒有訓練標籤,XLA旨在解決從源語言任務分發到未知目標語言任務分發的跨語言適應問題。XLA的核心是透過資料增強和無監督樣本選擇來同時進行自我訓練。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

向量表示


論文標題:Universal Sentence Representations Learning with Conditional Masked Language Model

論文連結:https://openreview.net/forum?id=WDVD4lUCTzU

論文摘要:本文提出了一種新的訓練方法,即條件遮蔽語言建模(CMLM),以有效地學習大規模未標記語料庫中的句子表示。CMLM透過以相鄰句子的編碼向量為條件,將句子表示學習整合到MLM訓練中。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Rethinking Embedding Coupling in Pre-trained Language Models

論文連結:https://openreview.net/forum?id=xpFFI_NtgpW

論文摘要:我們在最新的預訓練語言模型中重新評估在輸入和輸出嵌入之間共享權重的標準做法。我們表明,解耦的嵌入提供了增加的建模靈活性,從而使我們能夠在多語言模型的輸入嵌入中顯著提高引數分配的效率。透過在Transformer層中重新分配輸入的嵌入引數,我們可以在微調期間以相同數量的引數在標準自然語言理解任務上獲得顯著更好的效能。我們還表明,為輸出嵌入分配額外的容量可以為模型提供好處,即使在預訓練後將輸出嵌入丟棄,該模型也可以在微調階段持續存在。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Disentangling Representations of Text by Masking Transformers

論文連結:https://openreview.net/forum?id=Dmpi13JiqcX

論文摘要:我們探討了是否有可能透過識別預編碼模型中的子網來學習解糾纏的表示形式,這些模型對錶示形式的不同互補方面進行編碼。具體來說,我們學習關於Transformer權重或隱藏單位的二進位制掩碼,以發現與特定變化因子相關的特徵子集。這回避了在特定領域內從頭開始訓練解開模型的需求。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Polar Embedding

論文連結:https://openreview.net/forum?id=TLfjwEFI527

論文摘要:層次結構的有效表示對於開發智慧系統至關重要,因為大多數現實世界中的物件都按層次結構排列。我們使用極座標嵌入來學習極座標系統的表示形式。在極座標中,物件用兩個獨立變數表示:半徑和角度,這使我們可以根據層次結構中物件的普遍性和相似性的明確對應關係分別最佳化其值。此外,我們介紹了一種最佳化方法,該方法結合了控制梯度的損失函式和分佈的迭代均勻化。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Discrete Word Embedding for Logical Natural Language Understanding

論文連結:https://openreview.net/forum?id=4LHz4IFGLQ-

論文摘要:我們提出了一種無監督的神經模型,用於學習單詞的離散嵌入。與現有的離散嵌入不同,我們的二進位制嵌入支援類似於連續嵌入的向量算術運算。我們的嵌入將每個單詞表示為一組命題陳述,描述了經典/ STRIPS規劃形式主義中的過渡規則。這使得嵌入與符號化,最新的經典規劃求解器直接相容。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Filtered Inner Product Projection for Multilingual Embedding Alignment

論文連結:https://openreview.net/forum?id=A2gNouoXE7

論文摘要:在本文中,我們提出了一種將內部嵌入對映到公共表示空間的方法,即過濾內積投影(FIPP)。由於語義變化在語言和領域中無處不在,因此FIPP首先在兩個嵌入中標識出通用的幾何結構,然後僅在該通用結構上對齊這些嵌入的Gram矩陣。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies

論文連結:https://openreview.net/forum?id=Vd7lCMvtLqg

論文摘要:透過貝葉斯非引數解釋對大型詞彙的稀疏嵌入進行端到端學習,從而使嵌入表縮小多達40倍。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Ruminating Word Representations with Random Noise Masking

論文連結:https://openreview.net/forum?id=pXi-zY262sE

論文摘要:我們介紹了一種更好的單詞表示和效能訓練方法,該方法是在訓練模型後,逐步地,反覆地向詞嵌入中新增隨機噪聲和偏差,然後從頭開始重新訓練模型,但使用有噪聲的詞嵌入進行初始化。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Neural Topic Model via Optimal Transport

論文連結:https://openreview.net/forum?id=Oos98K9Lv-k

論文摘要:本文提出了一種透過最佳傳輸的神經主題模型,該模型可以發現更連貫和多樣的主題,併為常規文字和短文字提供更好的文件表示形式。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Probing BERT in Hyperbolic Spaces

論文連結:https://openreview.net/forum?id=17VnwXYZyhH

論文摘要:這項工作提出了一系列幾何上特殊的空間,即雙曲空間,它們對層次結構表現出更好的歸納偏差,並且可能更好地揭示了在上下文表示中編碼的語言層次。我們引入Poincare probe,可將這些嵌入投射到具有明確定義的層次結構的Poincaré子空間中。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Contrasting distinct structured views to learn sentence embeddings

論文連結:https://openreview.net/forum?id=ZlIfK1wCubc

論文摘要:我們提出了一種自我監督的方法,該方法可透過多種顯式句法結構的組合來構建句子嵌入。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:On Learning Universal Representations Across Languages

論文連結:https://openreview.net/forum?id=Uu1Nw-eeTxJ

論文摘要:在這項工作中,我們擴充套件了預訓練的語言模型,以學習多種語言之間的通用表示,並展示了對跨語言理解和生成的有效性。


ICLR 2021投稿中值得一讀的NLP相關論文


ICLR 2021投稿中值得一讀的NLP相關論文

其他


論文標題:Transformer protein language models are unsupervised structure learners

論文連結:https://openreview.net/forum?id=fylclEqgvgd

論文摘要:無監督的接觸預測對於揭示蛋白質結構確定和設計的物理,結構和功能限制至關重要。我們證明了Transformer注意圖是從無監督語言建模目標中學習聯絡的。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Token-Level Contrast for Video and Language Alignment

論文連結:https://openreview.net/forum?id=GRbZ91LKIya

論文摘要:建立影片和語言理解模型需要將語言概念和影片內容置於一個共享空間中。本文介紹了一種透過語法類(例如名詞和動詞)告知的簡單令牌級別的對比損失(ToCo),以迫使模型優先考慮具體的語義方位詞。ToCo不會掩蓋輸入,而是以對比方式為多模式對齊提供區域性(上下文標記)和全域性(詞法型別)壓力。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Learning Chess Blindfolded

論文連結:https://openreview.net/forum?id=DGIXvEAJVd

論文摘要:我們提出了國際象棋語言建模的任務,以評估語言模型如何很好地捕獲世界(棋盤)狀態。國際象棋的簡單而精確的動態特性允許(a)訓練具有各種顯式狀態的模型,以及(b)在細粒度的水平上評估模型預測。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:Long Range Arena : A Benchmark for Efficient Transformers

論文連結:https://openreview.net/forum?id=qVyeW-grC2k

論文摘要:本文提出了一個系統且統一的基準,即“Long Range Arena”,專門用於評估在長上下文情況下的模型質量。我們的基準測試是一整套任務,由從1K到16K Token的一系列序列組成,涵蓋了廣泛的資料型別和形式,例如文字,自然,合成影像以及需要相似,結構和視覺空間推理的數學表示式。


ICLR 2021投稿中值得一讀的NLP相關論文


論文標題:BERTology Meets Biology: Interpreting Attention in Protein Language Models

論文連結:https://openreview.net/forum?id=YWtLZvLmud7

論文摘要:我們分析了蛋白質語言模型的內部表示,並更廣泛地介紹了分析基於注意力的模型的方法。


ICLR 2021投稿中值得一讀的NLP相關論文

相關文章