哈工大SCIR九篇長文被EMNLP 2020及子刊錄用

哈工大SCIR發表於2020-09-21

哈工大SCIR九篇長文被EMNLP 2020及子刊錄用

EMNLP 2020(2020 Conference on Empirical Methods in Natural Language Processing)將於2020年11月16日至20日線上會議的形式舉辦。EMNLP是計算語言學和自然語言處理領域頂級國際會議之一,CCF B類會議,由ACL SIGDAT(語言學資料特殊興趣小組)主辦,每年舉辦一次。

EMNLP 2020共收到有效投稿3114篇,錄用754篇,錄用率為24.82%。此外,因為高質量的論文越來越多超出了EMNLP會議本身所能容納的範圍,今年EMNLP新增了Findings of EMNLP這一子刊,它將接納那些未被主會錄用但是被程式委員會評價為值得出版的文章,此次Findings of EMNLP共接收了520篇文章。EMNLP 2020接收的論文覆蓋了對話互動系統、資訊抽取、資訊檢索和文件分析、詞法語義、語言學理論、認知建模和心理語言學、用於NLP的機器學習、機器翻譯與多語言、問答、句子級語義學、情感分析和論點挖掘、文字挖掘和NLP應用、文字推理等自然語言處理領域眾多研究方向。

哈爾濱工業大學社會計算與資訊檢索研究中心有九篇長文被錄用,其中四篇被主會錄用,五篇被Findings of EMNLP子刊錄用。下面是論文列表及介紹:

01

題目:Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection

作者:王少磊,王重元,車萬翔,劉挺

錄用類別:主會

簡介:目前大部分在文字順滑(Disfluency Detection)任務上的工作都嚴重依賴人工標註資料。有一些工作嘗試用自監督方法(self-supervised)來緩解這個問題,但是他們的方法仍然依賴於有標註資料。在本工作中,我們首次嘗試用無監督的方法來解決文字順滑問題。我們透過結合自學習(self-training)和自監督兩種方法,在不採用任何有標註訓練資料的情況下,取得了跟目前最好的有監督方法接近的效果。

02

題目:Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting

作者:陳三元,侯宇泰,崔一鳴,車萬翔,劉挺,餘翔湛

錄用類別:主會

簡介:深層預訓練模型在“預訓練+精調”模式中取得了巨大成功。但這種遷移學習方法通常會碰到“災難性遺忘”問題並且會導致次優結果。為了在精調過程中減少“災難性遺忘”問題,我們提出了一種“recall and learn”的方法來同時學習預訓練任務和下游任務。具體地,我們提出了一種模擬預訓練機制,在不使用資料的情況下回憶預訓練任務所帶來的知識;同時提出了一種目標轉移機制來逐步學習下游任務。實驗結果表明我們的方法可以在GLUE任務上獲得state-of-the-art效果。同時,BERT-base在應用了我們的方法後能夠超過直接精調BERT-large的效果。我們已經將RecAdam最佳化器進行開源:https://github.com/Sanyuan-Chen/RecAdam。

03

題目:Profile Consistency Identification for Open-domain Dialogue Agents

作者:宋皓宇,王琰,張偉男,趙正宇,劉挺,劉曉江

錄用類別:主會

簡介:保持一致的角色屬性是對話系統自然地與人類進行交流的關鍵因素之一。現有的關於提高屬性一致性的研究主要探索瞭如何將屬性資訊融合到對話回覆中,但是很少有人研究如何理解、識別對話系統的回覆與其屬性之間的一致性關係。在這項工作中,為了研究如何識別開放域對話的屬性一致性,我們構建了一個大規模的人工標註資料集KvPI,該資料集包含了超過11萬組的單輪對話及其鍵值對屬性資訊。對話回覆和鍵值對屬性資訊之間的一致性關係是透過人工進行標註的。在此基礎上,我們提出了一個鍵值對結構資訊增強的BERT模型來識別回覆的屬性一致性。該模型的準確率相較於強基線模型獲得了顯著的提高。更進一步,我們在兩個下游任務上驗證了屬性一致性識別模型的效果。實驗結果表明,屬性一致性識別模型有助於提高開放域對話回覆的一致性。

04

題目:Counterfactual Off-Policy Training for Neural Dialogue Generation

作者:朱慶福,張偉男,劉挺,William Wang

錄用類別:主會

簡介:開放域對話系統由於潛在回覆數量過大而存在著訓練資料不足的問題。我們在本文中提出了一種利用反事實推理來探索潛在回覆的方法。給定現實中觀測到的回覆,反事實推理模型會自動推理:如果執行一個現實中未發生的替代策略會得到什麼結果?這種後驗推理得到的反事實回覆相比隨機合成的回覆質量更高。在對抗訓練框架下,使用反事實回覆來訓練模型將有助於探索潛在回覆空間中獎勵訊號更高的區域。在DailyDialog資料集上的實驗結果表明,我們的方法顯著優於HRED模型和傳統的對抗訓練方法。

05

題目:A Compare Aggregate Transformer for Understanding Document-grounded Dialogue

作者:馬龍軒,張偉男,孫潤鑫,劉挺

錄用類別:Findings of EMNLP 子刊

簡介:基於文件的對話是指標對給定文件進行多輪對話。先前的工作主要關注如何利用對話歷史篩選合適的文件資訊,利用篩選出的資訊生成對話回覆。但對話歷史不一定與當前對話完全相關。如果不區分歷史對話和當前對話之間的相關性,將導致在生成回覆時引入無關噪音。因此本文提出了一種"對比聚合"的Transformer結構,將對話歷史進行降噪處理,並聚合文件資訊以生成回覆。在公開資料集CMU_DoG上的實驗表明,我們提出的模型優於最新的基線模型。程式碼和資料將在Github中釋出。

06

題目:Towards Fine-Grained Transfer: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling

作者:覃立波、徐嘯、車萬翔、劉挺

錄用類別:Findings of EMNLP 子刊

簡介:在現實世界中,使用者在同一個話語中通常有多個意圖。遺憾的是,大多數口語理解(SLU)模型要麼主要集中於單一意圖場景,要麼簡單地將所有意圖資訊整合到一個統一的向量去指導槽位填充,忽略了細粒度的多意圖資訊整合。在本文中,我們提出了一個自適應圖互動框架(AGIF),用於聯合多意圖檢測和槽位填充。AGIF透過引入意圖-槽位的圖互動層,來建模槽位和多意圖之間的相關性。這種互動層能夠自適應地應用於每個單詞,可以自動為每個槽位分別捕獲相關的意圖資訊,從而為單詞級別的槽位填充進行細粒度的意圖資訊指導。實驗結果表明,我們的方法不僅在兩套多意圖資料集上獲得了SOTA結果,而且還在兩個單意圖的資料集上實現了更好的效能。

07

題目:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification

作者:龔恆,閉瑋,馮驍騁,秦兵,劉曉江,劉挺

錄用類別:Findings of EMNLP 子刊

簡介:基於神經網路的表格到文字生成模型可以選擇和排序重要資料,並透過surface realization階段來流暢地用文字表達它們。分析已有工作的結果,當前模型的效能瓶頸在於內容規劃階段(從表格資料中選擇和排序重要內容)。在surface realization階段,如果將輸入的標準的內容規劃結果替換為模型預測的內容規劃時,效能將急劇下降。在本文中,我們提出以下方法來增強基於神經網路的內容規劃模組:(1)透過上下文數值表示來理解資料,將對資料進行比較的概念引入內容規劃階段;(2)透過策略梯度驗證所選資料序列的重要性和順序。 我們在ROTOWIRE和MLB兩個資料集上評估了我們的模型。結果表明,在內容規劃指標方面,我們的模型優於現有系統。

08

題目:CodeBERT: A Pre-Trained Model for Programming and Natural Languages

作者:馮掌印,郭達雅,唐都鈺,段楠,馮驍騁,公明,壽林鈞,秦兵,劉挺,姜大昕,周明

錄用類別:Findings of EMNLP 子刊

簡介:本文我們提出了一個叫做CodeBERT的雙模態預訓練模型,也是目前已知第一個適用於NL-PL(自然語言-程式語言)的預訓練模型。CodeBERT透過學習一般性的表示來支援下游NL-PL相關的應用,比如自然語言程式碼檢索,程式碼文件生成等。和目前大多數預訓練模型類似,CodeBERT使用Transformer作為基本的網路結構。為了利用NL-PL對的雙模資料和大量單模程式碼資料,我們採用了混合目標函式來訓練CodeBERT,包括標準的掩碼語言模型(MLM)和替換詞檢測(RTD)。實驗結果表明,CodeBERT在下游的自然語言程式碼檢索和程式碼文件生成任務上都取得了SOTA效果。為了進一步研究CodeBERT學到了哪些型別的知識,我們構造了第一個NL-PL的probing資料集,然後固定預訓練好的引數來對模型進行檢測。實驗結果顯示,CodeBERT比其它預訓練模型在NL-PL的probing上表現更好。目前CodeBERT已開源:https://github.com/microsoft/CodeBERT。

09

題目:Revisiting Pre-Trained Models for Chinese Natural Language Processing

作者:崔一鳴,車萬翔,劉挺,秦兵,王士進,胡國平

錄用類別:Findings of EMNLP 子刊

簡介:BERT及其相關變種預訓練語言模型在眾多自然語言處理任務中獲得顯著效能提升。在本文中,我們探究了這些模型在中文場景下的效果變現,並將相關模型進行開源。同時,我們也提出了一個簡單有效的預訓練語言模型MacBERT,並提出了MLM as correction (Mac) 預訓練任務。我們在多箇中文自然語言處理任務中評測了這些模型的效果,並且實驗結果表明MacBERT在多個任務中達到了state-of-the-art效果。

本期責任編輯:丁 效

本期編輯:賴勇魁

相關文章