ACL 2017論文研討會：聚焦自然語言處理領域的新技術

就在上週，微軟亞洲研究院舉辦了“ACL 2017論文研討會”，旨在促進自然語言處理相關研究者之間的交流，探討自然語言處理領域的新技術。微軟亞洲研究院已被ACL2017大會錄用論文的作者在研討會上分別就各自的論文內容進行了分享。微軟亞洲研究院副院長、ACL候任主席周明及約40位相關領域的微軟員工和實習生參加了此次活動，就分享論文的問題、演算法、實驗等方面進行了深入的交流、討論。

ACL大會（Annual Meeting of the Association for ComputationalLinguistics）是自然語言處理領域的頂級國際會議，被中國計算機學會推薦國際學術會議列表認定為A類國際會議，會議內容涵蓋語言分析、機器翻譯、資訊抽取、自動問答等眾多研究領域。長期以來，微軟研究院在ACL長文論文的發表總數位居世界第一。

今年的第 55 屆ACL大會將於本週末（7月30 日至8月4 日）在加拿大溫哥華舉行。本屆會議共收到1419篇投稿（包括829篇長文和590篇短文），錄用長文195篇、短文149篇，長文錄用率為23.5%。其中，微軟亞洲研究院共有6篇長文，及一篇題為 “SuperAgent: A Customer Service Chatbot for E-commerce Websites” 的demo文章發表。

較高的投稿量反映了自然語言處理領域在人工智慧浪潮下的火熱。據統計，在被錄用的長文論文中，有79篇論文的第一作者為華人，約佔被錄用長文總數的40%，充分表明了華人的自然語言處理研究走在了世界的前沿，並在不斷地向前進步。

在ACL 2017大會即將拉開序幕的前夕，我們先提前為各位小夥伴們熱熱身，向大家介紹一下此次“ACL2017論文研討會”所分享論文的亮點。更多詳細內容，趕緊戳文中下載連結學起來！

論文題目

Chunk-based Decoder for Neural Machine Translation 作者Shonosuke Ishiwatari, Jingtao Yao, Shujie Liu, Mu Li, Ming Zhou, Naoki Yoshinaga, Masaru Kitsuregawa, Weijia Jia彙報人劉樹傑

論文摘要

在機器翻譯中使用組塊資訊能夠更容易的對組塊內的詞語和組塊與組塊之間的關係進行建模，因此在統計機器翻譯中得到了廣泛的使用。該論文的科研人員將組塊的資訊應用到神經機器翻譯中，從而更容易的解決了遠距離的依賴問題。他們提出的基於組塊的神經機器翻譯模型，包含了一個組塊級別的解碼器和詞級別的解碼器。組塊級別的解碼器負責對全域性（組塊間）的依賴進行建模，而詞級別的解碼器則對區域性（組塊內）的依賴進行建模。在英日翻譯任務（WAT’16）上的實驗顯示，基於組塊的神經機器翻譯解碼演算法能夠顯著的提高翻譯效能。

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：劉樹傑

論文題目

Sequence-to-Dependency Neural Machine Translation作者Shuangzhi Wu, Dongdong Zhang, Nan Yang, Mu Li,Ming Zhou彙報人吳雙志

論文摘要

現有的神經網路機器翻譯系統大多以序列的形式生成目標語言，忽略了目標語言的句法知識。通常來說，句法知識對句子的構成有重要的指導作用。受目標語言句法知識在短語翻譯模型中成功應用的啟發，本文提出了一種序列到依存的神經網路機器翻譯模型。該模型能夠在翻譯源語言的同時生成目標語言的依存句法結構，進一步利用已有的句法結構指導後續翻譯的生成，從而做到翻譯的同時兼顧語法結構。實驗表明本文提出的方法的效能在中英翻譯和日英翻譯任務上都高於傳統神經網路機器翻譯。

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：吳雙志

論文題目

Active Sentiment Domain Adaptation作者Fangzhao Wu, Yongfeng Huang, Jun Yan彙報人吳方照

論文摘要

情感分類是一個領域依賴的任務。不同的領域擁有不同的情感表達，因此一個領域訓練得到的情感分類器在另一個領域往往效果不佳。由於網路文字涉及大量的領域，因此很難為每一個領域去標註足夠多的樣本來訓練領域特定情感分類器。為此，該論文的研究人員提出了一個主動情感領域遷移的方法來解決該問題。他們的方法嘗試基於主動學習策略選取少量有資訊量的目標領域的有標註樣本，從目標領域大量的無標註樣本中挖掘詞語間的領域特定情感關係，並通過結合以上兩種資訊將情感詞典中的通用情感資訊遷移到目標領域。在基準資料集上的實驗表明，該方法能夠在少量有標註樣本的情況下為目標領域訓練準確的情感分類器。

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：吳方照

論文題目

Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-based Chatbots作者Yu Wu, Wei Wu, Chen Xing, Ming Zhou, Zhoujun Li

彙報人武威

論文摘要

聊天機器人的一個很重要的問題是如何在選擇回覆的時候考慮上下文。聊天上下文往往呈現層次結構並且有很多冗餘資訊，因此如何同時對聊天上下文的結構建模並且準確把握上下文中的要點成為了能否找到合適回覆的關鍵。在這篇文章中，研究員們提出了一個序列匹配網。該網路通過二維卷積神經網和迴圈神經網的耦合可以很好地對上下文建模並且抓住上下文中的關鍵點。在大規模標準資料集上，該模型對已有模型有非常大的提升，並且有很好的解釋性。另外，為了彌補學術界大規模標註資料的缺失，該文章還貢獻出了一個標註資料集。連結https://arxiv.org/abs/1612.01627

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：武威

論文題目

Selective Encoding for Abstractive Sentence Summarization作者Qingyu Zhou, Nan Yang, Furu Wei, Ming Zhou彙報人周青宇

論文摘要

句子摘要任務的目標是產生一個句子的簡短概括。該論文的研究人員提出了選擇性編碼模型以改善生成式句子摘要的效能。他們的模型包含了一個句子編碼器、選擇門網路和帶注意力機制的解碼器。其中，句子編碼器和解碼器採用了迴圈神經網路。選擇門網路通過控制從編碼器到解碼器的資訊流來構建額外的一層資訊表示，該層表示為句子摘要構建了量身定做的語義表示。研究人員在英文Gigaword、DUC 2004和MSR三個生成式句子摘要資料集上進行了測試。實驗結果表明本文提出的選擇性編碼模型效能比當前最優基線模型有顯著提高。連結
https://arxiv.org/abs/1704.07073

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：周青宇

論文題目

Gated Self-Matching Networks for Reading Comprehension and Question Answering作者Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang,Ming Zhou彙報人楊南

論文摘要

本文提出了一種針對機器閱讀理解和問答任務的端到端的多層神經網路，模型主要由四部分組成。首先通過多層的雙向迴圈神經網路得到問題和篇章的語義向量表示。第二步通過Attention機制和Gate機制學習文章和問題詞彙級的匹配，從而得到篇章中每個詞和問題的對齊及其重要程度。第三步通過Self-Matching機制，對答案所需要的篇章中的證據和問題資訊進行進一步聚合，得到最終的篇章中每個詞的語義向量表示。最後使用Pointer Networks得到答案在篇章中的起始位置和結束位置，進而得到問題的最終答案。在Stanford釋出的機器閱讀理解比賽資料集SQuAD上，本文提出的模型（R-Net）的單模型和整合模型結果都分別排名第一。連結
https://www.microsoft.com/en-us/research/publication/mrc/

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：楊南

論文題目

Adversarial Training for Unsupervised Bilingual Lexicon Induction作者Meng Zhang, Yang Liu, Huanbo Luan, Maosong Sun彙報人張檬

論文摘要

本論文提出了利用對抗學習從非平行文字自動構建雙語詞典，利用向量空間對映發現雙語之間的關聯性，克服了傳統方法依賴於種子詞典的缺點，實現了完全不依賴雙語資訊、僅利用單語文字構建雙語詞典的任務，顯著提升了機器翻譯處理低資源語言的能力。連結http://nlp.csai.tsinghua.edu.cn/~ly/papers/acl2017_zm.pdf

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：張檬

論文題目

Adversarial Multi-Criteria Learning for Chinese Word Segmentation作者Xinchi Chen, Zhan Shi, Xipeng Qiu, XuanjingHuang彙報人陳新馳

論文摘要

不同的語言視角往往導致許多不同細分標準的中文分詞語料。大多數現有的方法側重於改進使用單個標準的語料下的分詞效能。如果能利用不同標準的語料來提升分詞的效果是很有意義的。在這篇文章中，科研人員使用對抗訓練的思想，通過多目標整合學習的方法來學習多個異構標準的分詞語料集。在8種不同標準的語料庫上的實驗表明，相比較於單標準學習方法，模型在每個語料集上的效能都獲得了顯著改進。連結https://arxiv.org/abs/1704.07556

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

彙報人：陳新馳

原文連結：http://mp.weixin.qq.com/s/Pdb1bfFYNbkzd8mDQG8GaQ

相關文章