中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

机器之心發表於2019-08-01

不久自然語言處理領域頂級會議 ACL 已於當地時間 7 月 28 日在義大利佛羅倫薩開幕。不久之前,ACL 2019 官方網站公佈了入圍論文獎項的 32 篇候選論文。剛剛,ACL 2019 最終獲獎論文公佈,多所國內高校及眾多華人學者獲得榮譽。

值得一提的是,來自中科院、華為諾亞方舟實驗室等機構的論文獲得了最佳長論文;一篇來自南京理工大學論文獲得了傑出論文獎。除此之外,還有很多華人學者都是獲獎論文的作者。由此可見,國內研究者在 NLP 領域還是取得非常不錯的成績。

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

隨著人工智慧浪潮的興起,學術會議越來越受關注。近年來,CVPR、NeurIPS 等頂級國際 AI 會議在接收論文數量、參會人數上不斷重新整理記錄。NLP 作為人工智慧的重要分支之一,該領域的國際頂會 ACL 自然也火熱異常。

今年 3 月份,ACL 官方公佈了收到的論文投稿數量——2904 篇,相比於去年的 1544 篇出現了大幅增長。在接收率方面,此屆大會共接收 660 篇論文,接受率為 22.7%,其中包括 447 篇長論文、213 篇短論文。下表展示了今年 ACL 各領域的論文提交情況:

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

在參會人數上,ACL 2019 也創歷屆新高。據大會主席 Lluís Màrquez 介紹,本屆 ACL 的註冊參會人數達到了 3160 人。

毫無疑問,ACL 已經成為了目前規模最大的 NLP 學術會議之一。

最佳長論文

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

  • 論文:Bridging the Gap between Training and Inference for Neural Machine Translation.

  • 作者:Wen Zhang, Yang Feng, Fandong Meng, Di You and Qun Liu(中國科學院計算技術研究所、中國科學院大學、騰訊 WeChat AI、伍斯特理工學院、華為諾亞方舟實驗室)

  • 連結:https://arxiv.org/abs/1906.02448

在訓練時,神經機器翻譯(NMT)利用 ground truth 詞作為預測時的上下文,推理時則必須從頭生成整個句子。這種帶不帶標註上下文的差異導致誤差的累積。此外,單詞級別的訓練要求生成的序列與 ground truth 序列嚴格匹配,這導致模型對不同但合理的翻譯進行過校正。

在本文中,研究者不僅從 ground truth,還從模型在訓練中預測的序列取樣上下文單詞,並選擇句子級別的最優預測序列來解決這些問題,其中預測語句是句子級別的最優選擇。也就是說,翻譯模型不再逐詞對比標註而確定損失函式,它會考慮同一句話不同的譯法。

最佳論文直觀的解決方案是什麼

直觀地說,為了解決這個問題,模型在訓練過程中做預測應該與推理過程採用相同的條件。受 DATA AS DEMONSTRATOR(DAD)的啟發,研究者在訓練過程中將標註單詞和預測單詞作為上下文一起饋入,從而彌補訓練與推斷間的巨大差異。

此外,MT 模型通常對交叉熵損失進行最佳化,這就要求預測序列與 ground truth 序列在詞級別上進行嚴格的成對匹配。一旦模型生成了一個偏離 ground truth 序列的單詞,交叉熵損失將立即糾正錯誤,並將剩餘的生成拉回到 ground truth 序列。這雖然容易實現,但很明顯損失函式會將同一句話的不同譯法視為誤差。

雖然直觀的解決方案會產生這些問題,但總的而言,研究表明我們可以透過一種名為 Overcorrection Recovery (OR) 的方法解決這些問題。

在本文中,研究者提出了一種能提高 NMT「過校正」恢復能力的方法。首先,該方法從預測到的單詞中選擇 oracle 單詞(模型預測的詞),然後從 oracle 單詞和標註單詞中取樣出上下文。

同時,oracle 單詞的選擇不僅透過逐字貪婪搜尋完成,而且還透過 BLEU 這樣句子級別的評估來選擇,這使得在交叉熵限制下有更大的靈活性。在訓練開始時,模型以更大的機率選擇上下文標註詞。隨著模型逐漸收斂,更多的 oracle 單詞被選為上下文。

透過這種方式,訓練過程從完全引導的規劃轉變為較少引導的規劃。在這種機制下,模型有機會學習處理推理階段中的錯誤,而且還能夠從過度修正中恢復替代翻譯。

在 RNNsearch 模型和更強的 Transformer 模型上,研究者對此方法進行了驗證。結果表明,該方法可以顯著提高兩種模型的效能。

如下圖 1 所示,該方法的主要框架是以一定的機率將標註單詞或者先前預測到的詞作為上下文。

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

圖 1:本文所提出方法的架構

最佳短論文

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

  • 標題:Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment

  • 作者:蔣南江(Nanjiang Jiang)、Marie-Catherine de Marneffe(美國俄亥俄州立大學)

  • 論文地址:https://www.aclweb.org/anthology/P19-1412

推斷說話者承諾(又稱為事件事實)對資訊提取和問答非常重要。在這篇論文中,研究者透過在挑戰性的自然資料集上分析模型誤差的語言學相關性,從而探索語言學缺陷驅動說話人承諾模型錯誤模式的假設。

研究者在 CommitmentBank 資料集上評估了兩個 SOTA 的說話人承諾模型(speaker commitment model)。

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

圖注:CommitmentBank 資料集長這個樣子。

他們發現獲取語言學資訊的模型要優於基於 LSTM 的模型,這表明我們需要語言學知識來捕捉具有挑戰性的自然資料。研究者表示按語言學特徵劃分的 item 揭示了不對稱的錯誤模式:雖然模型在某些類別上取得了很好的表現,但它們無法泛化到自然語言中的各種語言學結構,例如條件句。

所以,這篇最佳短論文到底在說什麼?我們先要了解說話者承諾這一任務。

預測說話人承諾是確定其對一個句子中某個事件的承諾程度是事實、反事實還是不確定。例如如果某人問「你知道佛羅倫薩擠滿了遊客嗎?」,那麼他希望聽者相信佛羅倫薩擠滿了遊客;但是如果他問「你覺得佛羅倫薩擠滿了遊客嗎?」,那麼說話者希望聽者相信佛羅倫薩沒擠滿遊客。這就是針對事件承諾的的事實與反事實。

在本文中,研究者利用 CommitmentBank 資料集來評估 Stanovsky 等人(2017 年)和 Rudinger 等人(2018 年)分別提出的 SOTA 說話人承諾模型。CommitmentBank 資料集雖侷限於特定語言結構,但仍是一個很好的測試用例。透過分析當前說話人承諾模型在有挑戰性的特定語言結構上的表現,這種對說話者承諾的預測能夠評估這些模型是否可以實現魯棒的語言理解。

最佳 demo 論文

  • 論文:OpenKiwi: An Open Source Framework for Quality Estimation

  • 作者:Fabio Kepler, Jonay Trenous, Marcos Treviso, Miguel Vera and André F. T. Martins(Unbabel、Instituto de Telecomunicac¸oes)

  • 連結:https://www.aclweb.org/anthology/P19-3020

研究者在論文中介紹了一個基於 PyTorch 的翻譯質量評估開源框架——OpenKiwi。OpenKiwi 支援詞和句子級別質量評估系統的訓練和測試,實現了 WMT 2015-18 質量評估競賽的獲獎系統。他們在兩個 WMT 2018 的資料集(英德 SMT 和 NMT)上對 OpenKiwi 進行了基準測試,在單詞級別的任務上獲得 SOTA 效能,在句子級別的任務上接近 SOTA 效能。

傑出論文獎

  • 標題:Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts

  • 作者:Rui Xia and Zixiang Ding(南京理工大學)

  • 連結:https://arxiv.org/abs/1906.01267

摘要:情感原因抽取(ECE)的目的是抽取文字中某些情感背後的潛在原因。然而,它存在以下兩個不足之處:1)ECE 在提取原因前必須對情感進行標註,這極大地限制了其在現實場景中的應用;2)先對情感進行標註再抽取原因的做法忽略了二者互指的事實。研究者在本文中提出了一個新的任務:情感-原因對抽取(ECPE),旨在抽取文件中潛在的情感-原因對。針對這一新的 ECPE 任務,研究者提出了一種 2 步的方法:首先透過多工學習進行個體情感抽取和原因抽取,然後進行情感-原因配對和過濾。在一個基準情感原因語料庫上的實驗結果證明了 ECPE 任務的可行性和本文所提方法的有效性。

  • 標題:A Simple Theoretical Model of Importance for Summarization

  • 作者:Maxime Peyrard(瑞士洛桑聯邦理工學院)

  • 連結:https://www.aclweb.org/anthology/P19-1101

摘要:摘要的研究主要是由實證分析方法驅動的,它利用潛在的資訊重要性概念,來精心設計系統以在標準資料集上實現良好的表現。研究者認為,建立重要性的理論模型將加深我們對任務的理解,也有助於進一步改進摘要系統。為此,研究者對幾個概念提出了簡單但嚴格的定義,這些概念以前只在摘要中直觀地使用:冗餘、相關性和資訊量。作為一個單獨的量,重要性自然而然地統一了這些概念。此外,研究者還提供了直覺來解釋所提出的量和實驗,以證明框架的潛力,為後續工作提供資訊和指導。

  • 標題:Transferable Multi-Domain State Generator for Task-Oriented

  • 作者:Chien-Sheng Wu, Andrea Madotto, Ehsan Hosseini-Asl, Caiming Xiong, Richard Socher and Pascale Fung(香港科技大學、Salesforce 研究院)

  • 連結:https://arxiv.org/abs/1905.08743

摘要:作者在這篇論文中提出了一種可遷移對話狀態生成器(Transferable Dialogue State Generator,TRADE),它能夠藉助於複製機制(copy mechanism)從話語中生成對話狀態,並且在預測訓練中未見過的 (domain, slot, value) 三元組時促進知識轉移。該模型由一個話語編碼器、一個 slot gate 和一個狀態生成器組成,這些都是跨領域共享的。實驗結果表明,TRADE 在人-人對話資料集 MultiWOZ 的五個領域中實現了 48.62% 的 SOTA 聯合目標準確率。此外,透過對未見過領域進行零樣本和少樣本對話狀態跟蹤的模擬,作者證明了 TRADE 的遷移能力。TRADE 在其中一個零樣本領域實現了 60.58% 的聯合目標準確率,並且能夠在記住已經訓練領域的情況下適應少樣本案例。

  • 標題:We need to talk about standard splits

  • 作者:Kyle Gorman and Steven Bedrick(紐約市立大學、俄勒岡健康與科學大學)

  • 連結:https://wellformedness.com/papers/gorman-bedrick-2019.pdf

摘要:語音和語言技術的標準做法是根據留出測試集對系統進行排名。然而很少有研究者應用統計檢驗確定效能差異是不是偶然發生的,同樣很少有研究者檢驗系統在多種訓練-測試分割方案中的穩定性。研究者使用了從 2000 年到 2018 年間釋出的 9 個詞性標註模型,並進行了復現性研究,其中每一個模型都在最廣泛使用的「標準分割方案」下提供了 SOTA 結果。

但研究者最終無法透過隨機生成分割標準可靠地復現排名,這表明排名的差異很可能存在隨機性。所以研究者最後建議我們在對比系統時,應該使用隨機生成的訓練-測試分割方案。

  • 標題:Zero-Shot Entity Linking by Reading Entity Descriptions

  • 作者:Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin and Honglak Lee(密歇根大學、谷歌研究院)

  • 連結:https://arxiv.org/pdf/1906.07348.pdf

摘要:在此論文中,研究者提出了 zero-shot 實體連結任務,也就是在沒有域內標註資料的情況下,指代(mention)必須與未知實體相關聯。這個任務的目標是能穩健地遷移到高度專業化的領域,因此就不需要再假設後設資料或者別名表。在此設定中,實體只能透過文字描述確定,模型也極其依賴於語言理解來解析新的實體。

首先,研究者表明,在大型未標註資料上預訓練的強機器閱讀理解模型能夠用於未知實體。其次,他們提出了一種簡單、高效的適應性預訓練策略,能夠解決連線到新領域未知實體時的域遷移難題,這個稱之為域自適應訓練(DAP)。研究者在為此任務構建的資料集上進行了實驗,表明 DAP 改進了包括 BERT 在內的預訓練基線結果。資料和程式碼開源連結:https: //github.com/lajanugen/zeshel。

相關文章