EMNLP 是自然語言處理領域的頂級會議,它的全稱是Conference on Empirical Methods in Natural Language Processing(自然語言處理中的經驗方法會議),由國際語言學會(ACL)的SIGDAT小組主辦,今年10月31日-11月4日將在比利時布魯塞爾舉行。
今年是騰訊AI Lab第2次參加EMNLP,共有16篇文章入選,涵蓋語言理解、語言生成、機器翻譯等多個研究主題。以下為摘要解讀。
此外,在今年的多個頂級學術會議中,騰訊AI Lab也入選多篇論文,位居國內企業前列,包括機器學習領域頂會NIPS(20篇)和ICML(16篇)、計算機視覺領域頂會CVPR(21篇)和ECCV(19篇),以及語音領域頂會Interspeech(8篇)等。
1. QuaSE: 量化指導下的序列編輯
QuaSE: Sequence Editing under Quantifiable Guidance
論文地址:https://arxiv.org/abs/1804.07007
本文由騰訊AI Lab主導,與香港中文大學合作完成。本文提出了量化指導下的序列編輯(QuaSE)的任務:編輯輸入序列以生成滿足用於定量序列某種特定屬性的數值的輸出序列,同時保持輸入序列的主要內容。例如,輸入序列可以是字的序列,例如評論句子和廣告文字。對於評論句子,數值可以是打分; 對於廣告,數值可以是點選率。QuaSE的一個主要挑戰是如何感知與數值相關的措辭,並僅編輯它們以改變結果。在本文中,所提出的框架包含兩個潛在因子,即結果因子和內容因子,為輸入句子提供方便的編輯以改變數值結果並保留內容。本文的框架透過對其內容相似性和結果差異進行建模來探索利用偽平行句對,以便更好地解耦潛在因子,從而允許生成更好地滿足期望數值結果並保持內容的輸出。對偶重構結構透過利用偽平行句對的潛在因子的耦合關係,進一步增強了生成滿足預期的輸出的能力。為了評估,研究人員準備了Yelp評論句子的資料集,用打分作為數值結果。本文報告和深入討論了實驗結果,以闡述框架的特點。
2. 利用深層表示進行神經機器翻譯
Exploiting Deep Representations for Neural Machine Translation
本文由騰訊AI Lab主導,與南京大學合作完成。神經機器翻譯系統通常由多層編碼器和解碼器構成,這允許系統對於複雜函式進行建模並捕獲複雜的語言結構。 然而,通常情況下,翻譯過程僅利用了編碼器和解碼器的頂層,這錯過了利用在其他層中的有用資訊的機會。 在這項工作中,研究人員提出用層聚合和多層注意機制的方法同時暴露和傳輸所有這些訊號。 此外,本文引入輔助的正則化以鼓勵不同的層捕獲不同的資訊。 研究人員在廣泛使用的WMT14英語到德語和WMT17中文到英語翻譯資料進行實驗,實驗結果證明了方法的有效性和普遍性。
3.自注意力神經網路模型的區域性性建模
Modeling Localness for Self-Attention Networks
本文由騰訊AI Lab主導,與澳門大學合作完成。自注意力模型可以直接注意所有輸入元素,在很多工中被證明具有捕獲全域性依賴的能力。 然而,這種依賴資訊的捕獲是透過加權求和操作完成的,這可能會導致其忽視相鄰元素間的關係。本文為自注意力網路建立區域性性模型,以增強其學習區域性上下文的能力。 具體而言,我們將區域性模型設計為一種可學習的高斯偏差,這種高斯偏差表示了所強化的區域性範圍。 隨後,所得到的高斯偏差被用於修正原始注意力分佈以得到區域性強化的權重分佈。此外,我們發現在多層自注意網路中,較低層趨向於關注於尺寸較小的區域性範圍,而較高層則更注重全域性資訊的捕獲。因此,為了保持原模型捕獲長距離依賴能力的同時強化其對區域性資訊的建模, 本文僅將區域性性建模應用於較低層的自注意力網路中。 在漢英和英德翻譯任務的定量和定性分析證明了所提出方法的有效性和適用性。
4. 用於短文字分類的主題記憶網路
Topic Memory Networks for Short Text Classification
本文由騰訊AI Lab主導,與香港中文大學合作完成。許多分類模型在短文字分類上效能欠佳,其主要原因是短文字所產生的資料稀疏性問題。為了解決這一問題,本文提出了一種新穎的主題記憶機制用於編碼那些對分類有用的主題表示,以提升短文字分類的效能。前人的工作主要專注於用額外的知識擴充文字特徵或者利用已經訓練好的主題模型,不同於過去的工作,本文的模型能夠在記憶網路框架下透過端到端的方式同時學習主題表示和文字分類。四個基準資料集上的實驗結果證明了本文的模型不僅在短文字分類上的效能超過了之前最先進的模型,同時也能夠產生有意義的主題。
5. 一種用於自動構造中文錯字檢查語料的混合方法
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check
本文由騰訊AI Lab主導,與清華大學和騰訊SNG合作完成。中文錯字的自動檢查是一個富有挑戰又十分有意義的任務,該任務不僅用於許多自然語言處理應用的預處理階段,而且可以極大促進人們的日常讀寫。資料驅動的方法在中文錯字檢查十分有效,然而卻面臨著標註資料缺乏的挑戰。這個工作提出了一種自動構造用於拼寫檢查資料集的方法,分別透過基於OCR和SR的方法構造視覺上和聽覺上相似的字來模擬錯字。利用本文提出的方法,研究人員構造了一個大規模的資料集用於訓練不同的錯字自動檢查模型,在三個標準的測試集上的實驗結果證明了本文自動構造資料集方法的合理性和有效性。
6. 基於對抗條件變分自編碼器的中文詩歌生成
Generating Classical Chinese Poems via Conditional Variational Autoencoder and Adversarial Training
本文為騰訊犀牛鳥合作專案,與北京大學合作完成。計算機自動創作表達流暢、文字優美的詩歌是一個難題。雖然之前的相關研究已經取得了引人注目的成果,自動生成的詩歌依然和詩人創作的有很大差距,尤其是主旨一致性和用詞的新穎性。 在本文中,研究人員提出結合條件變分自編碼器和對抗訓練的策略來生成詩歌。實驗結果表明,不管是自動指標還是人工測評,本文的模型都有顯著的提高。
7. 面向摘要生成的互動文件表表徵學習及潤色
Iterative Document Representation Learning Towards Summarization with Polishing
本文為騰訊犀牛鳥合作專案,與北京大學合作完成。透過觀察人類生成摘要時對文件閱讀及理解多遍的事實,文字提出了基於互動式文字摘要技術的抽取式摘要生成模型。考慮到當前摘要生成技術侷限於對待生成摘要文字只處理一遍,多數文字表達無法得到全域性最優的結果。針對這種情況,本文提出的方法能夠持續選擇,更新相應文字及最佳化相應的文字表徵。在CNN/DailyMail和DUC2002資料及上的實驗結果證明,本文提出的方法在自動及人工評測方面均超越了以往最好的模型。
8. 面向回覆生成的變分自迴歸解碼器
Variational Autoregressive Decoder for Neural Response Generation
本文由騰訊AI Lab參與,與哈爾濱工業大學合作完成。由於結合了機率圖模型與神經網路的優點,條件變分自編碼機(Conditional Variational Auto-encoder (CVAE))在諸多自然語言處理應用例如開放域對話回覆上,表現出了優秀的效能。然而,傳統CVAE模型通常從單一的潛在變數中生成對話回覆,這一模型很難對回覆中的多樣性進行準確建模。為了解決這一問題,本文提出了一種將序列化的潛在變數引入對話生成過程中的模型。在此模型中,研究人員使用一個後向迴圈神經網路(Recurrent Neural Network, RNN)擴充套件近似後驗機率分佈,其中後向迴圈神經網路使得本文的模型能更好捕捉文字生成過程中的長距離依賴問題。為了更好訓練本文提出模型,研究人員在訓練過程中加入了預測後續文字詞袋(bag-of-words)的輔助目標。在OpenSubtitle和Reddit對話生成資料集的實驗上表明本文提出的模型可以顯著提升生成回覆的相關性與多樣性。
9. 具有差異性約束的多頭注意力機制
Multi-Head Attention with Disagreement Regularization
本文由騰訊AI Lab主導,與香港中文大學和澳門大學合作完成。多頭注意力機制因其能在不同子空間學習不同表徵的能力受到研究者歡迎。在這個工作中,本文引入一種差異性約束來顯式地鼓勵多個注意力頭的多樣性。具體地,本文提出了3種差異性約束,分別鼓勵每個注意力頭在輸入子空間、注意力對齊矩陣、輸出表示上跟其他的注意力頭不一樣。研究人員在廣泛使用的WMT14英語到德語和WMT17中文到英語翻譯資料進行實驗,實驗結果證明了方法的有效性和普遍性。
10.一種基於共享重構機制的缺略代詞還原與神經網路機器翻譯聯合學習方法
Learning to Jointly Translate and Predict Dropped Pronouns with a Shared Reconstruction Mechanism
論文地址: https://arxiv.org/abs/1810.06195
本文由騰訊AI Lab主導,與都柏林城市大學合作完成。在代詞缺略語言(如,漢語)中,代詞常常會被省略,但是這給機器翻譯結果的完整性帶來了極大挑戰。最近 Wang et al. (2018) (Translating Pro-Drop Languages with Reconstruction Models) 的工作提出了利用重構機制來緩解神經網路機器翻譯中的缺略代詞問題。本文從兩個方面進一步加強了原有的重構模型。首先,本文提出了共享式重構器來充分利用編碼器和解碼器端的表示。第二,為了避免額外的缺略代詞標註系統的錯誤傳遞,本文利用聯合學習方法提出了缺略代詞預測和翻譯的端到端模型。
11. 一種減少神經網路對話模型生成通用回覆的統計重加權方法
Towards Less Generic Responses in Neural Conversation Models: A Statistical Re-weighting Method
本文由騰訊AI Lab主導,與蘇州大學和武漢大學合作完成。序列到序列(Seq2Seq)的神經網路生成模型已經在短文的對話生成任務中取得了不錯表現。但是,這些生成模型往往容易生成通用、乏味的回覆,非常影響對話的體驗。研究人員觀察到在對話任務中,每個輸入語句都有可能對應著多個合理回覆,即表現為1對n(或者以整個語料集的角度看是m對n)的形式。這種情形下,使用標準的Seq2Seq的目標函式,模型引數容易透過損失代價被通用(高頻)的句子樣式主導。受此啟發,本文提出一種基於統計重加權的方法賦予輸入語句對應的多個可接受回覆不同的權值,並使用經典的神經網路生成模型進行訓練。在一份大型的中文對話語料集上的實驗結果表明,本文提出的方法在提高模型生成回覆的接受率的同時,明顯地減少了通用回覆的數量。
12. 將數學問題翻譯為表示式樹
Translating a MathWord Problem to a Expression Tree
本文由騰訊AI Lab主導,與電子科技大學和香港中文大學合作完成。序列到序列模型已經成功的在自動解數學題方向取得了較大成功。然而,這種方法雖然十分的簡單有效,卻仍然存在一個缺點: 一個數學問題可以被多個方程正確的解出。這種非確定性的對映關係損害了最大似然估計的效能。本文利用表示式樹的唯一性提出了一種公式歸一化的方法。此外,本文還分析了三種目前最流行的序列到序列模型在自動解數學題任務上的效能。研究人員發現每個模型都有自己的優點和缺點,因此本文進一步提出了一個整合模型來結合他們的優點。在資料集 Math23K上的實表明使用公式歸一化的的整合模型明顯優於以往最先進的方法。
13. 迴圈神經網路語言模型下n-gram的邊際機率估計
Estimating Marginal Probabilities of n-grams for Recurrent Neural Language Models
本文為騰訊AI Lab犀牛鳥Gift Fund專案,與美國西北大學合作完成。迴圈神經網路語言模型(RNNLMs)是當前統計語言建模的主流方法。然而,RNNLMs只能對完整的文字序列進行機率計算。在一些實際應用當中,往往需要計算上下文無關的(context-independent)短語的機率。本文中,研究人員探索瞭如何計算RNNLMs的邊際機率:在前文(preceding context)缺失的情況下,模型如何計算一個短文字的機率。本文提出了一種改變RNNLM訓練的方法,使得模型能夠更加精確地計算邊際機率。實驗結果表明,本文的技術優於基線系統,如傳統的RNNLM以及重要度取樣法。本文還給出瞭如何利用邊際機率改善RNNLM的方法,即在訓練中使邊際機率接近於一個大資料集中n-gram的機率。
14. 基於混合注意力機制的線上論辯贊成/反對關係識別
Hybrid Neural Attention for Agreement/Disagreement Inference in Online Debates
本文由騰訊AI Lab參與,與哈爾濱工業大學合作完成。推斷辯論尤其是線上辯論文字間的贊成/反對關係是論辯挖掘的基本任務之一。贊成/反對的表達通常依賴於文字中的議論性表達以及辯論參與者之間的互動,而以往的工作通常缺乏聯合建模這兩個因素的能力。為了解決這一問題,本文提出了一種基於神經網路的混合注意力機制,其結合了自我注意力機制以及交叉注意力機制,分別透過上下文語境和使用者間的互動資訊來定位文字中的重要部分。在三個線上辯論資料集上的實驗結果表明,本文提出的模型優於現有的最優模型。
15. XL-NBT: 一種跨語言神經網路置信跟蹤框架
XL-NBT: A Cross-Lingual Neural Belief Tracking Framework
論文地址:https://arxiv.org/pdf/1808.06244.pdf
本文為騰訊AI Lab犀牛鳥Gift Fund專案,與美國俄亥俄州立大學和加州大學聖塔芭芭拉分校合作完成。實現跨語種對話系統在實際應用(如自動客服)中具有重要的實際意義。現有方法實現多語種支援通常需要對每一個語言單獨標註。為了避免大量的標註成本,作為實現多語種通用對話系統這一終極目標的第一步,本文研究一個完全不需要新語種標註的跨語種的神經網路置信跟蹤框架。具體來講,本文假設源語言(例如英語)存在一個已經訓練好的置信跟蹤器,而目標語言(如德語或者義大利語)不存在相應的用於訓練跟蹤器的標註資料。本文采用源語言的跟蹤器作為教師網路,而目標語言的跟蹤器作為學生網路,同時對置信跟蹤器進行結構解耦並藉助外部的一些平行語料來幫助實現遷移學習。本文具體討論了兩種不同型別的平行語料,得到兩種不同型別 的遷移學習策略。實驗中研究人員用英語作為源語言,用德語和義大利語分別作為目標語言,實驗結果驗證了本文提出方法的有效性。
16. 自然語言影片時域定位
Temporally Grounding Natural Sentence in Video
本文由騰訊AI Lab主導,與新加坡國立大學合作完成。本文介紹一種有效且高效的方法,可以在長的未修剪的影片序列中定位自然語句表達的相應的影片內容。 具體而言,本文提出了一種新穎的Temporal GroundNet(TGN),用於捕獲影片和句子之間不斷演變的細粒度影片幀與單詞之間的互動資訊。 TGN基於所挖掘的影片幀與單詞之間的互動資訊地對每幀的一組候選者進行評分,並最終定位對應於該句子的影片片段。 與以滑動視窗方式分別處理重疊段的傳統方法不同,TGN考慮了歷史資訊並在單次處理影片後生成最終的定位結果。 研究人員在三個公共資料集上廣泛評估本文提出的TGN。實驗證明TGN顯著的提高了現有技術的效能。 本文透過相應對比試驗和速度測試進一步顯示TGN的有效性和高效率。