2015年EMNLP自然語言處理實證方法會議(Conferenceon Empirical Methods in Natural Language Processing)於2015年9月17-22日在葡萄牙里斯本市召開。EMNLP是自然語言處理領域的頂級會議,由ACL學會下屬特殊興趣小組SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP)組織,每年召開一次。本次大會吸引了來自學術界和企業界近千人參加。
會議概況
本次會議共收到來自 58個國家和地區的1300篇論文投稿,其中來自中國大陸地區的投稿257篇,位居第2位,僅次於美國。來自全球各地的30位Area Chairs和900多位審稿人員組成了程式委員會,對投稿進行了嚴格的評審。會議收到的長文投稿約600篇,短文投稿約700篇,最終錄用312 篇論文,錄用率為24.04%,基本與自然語言處理頂級會議ACL的投稿量和錄取率持平。EMNLP從2013年開始錄用短文,今年短文投稿量相比前兩年平均200餘篇的投稿量有了顯著增長。會議論文有口頭報告和海報報告兩種形式,並首次嘗試讓錄取論文作者投票選擇感興趣的論文,來確定論文報告形式。本次會議還安排了部分期刊TACL(Transactions of the Association for Computational Linguistics)的論文進行口頭報告。
會議論文
自然語言處理實證方法會議涉及自然語言處理的資料標註、演算法、應用等各個領域,是自然語言處理學術界和產業界的研究人員進行交流、思想碰撞與合作的重要平臺。該會議涵蓋多個主題:音韻學、構詞法及分詞;標註、組塊分析及句法分析;對話系統;語義;文件摘要和產生;統計機器學習方法;機器翻譯;資訊抽取;資訊檢索與問答;情感分析與意見挖掘;語音技術處理;計算心理語言學;網際網路與社交媒體;語言與視覺;文字挖掘與應用。其中語義作為近幾年最火的方向,吸引了近200篇論文投稿。其他幾個主要方向如資訊抽取、機器翻譯等也分別有近150篇投稿量。
在本次會議上,以人工神經網路為代表的深度學習與表示學習大放異彩。以詞表示學習演算法和開源工具word2vec的釋出和流行為標誌,近年來詞表示、句子表示、文件表示以及知識表示引起了自然語言處理研究者們的極大興趣。在這方面,今年會議上Tobias Schnabel等人的“Evaluation methods for unsupervised word embeddings”對近年提出的幾種主要詞表示模型,在不同任務上系統地進行了對比測試,得出了很多經驗性結論,值得關注。 自去年在機器翻譯領域得到有效驗證之後,基於Attention的神經網路模型在今年會議上大放異彩:Thang Luong等人的“Effective Approaches to Attention-based Neural Machine Translation”對基於Attention的神經網路機器翻譯模型做了進一步改進;Sumit Chopra等人的“A Neural Attention Model for Abstractive Sentence Summarization”將該模型應用到了文字摘要任務。尤其值得一提的是,在深度學習著名學者約書亞·本吉奧(Yoshua Bengio)的特邀報告中,基於Attention的神經網路模型也備受推崇,相信接下來會得到更為廣泛深入的研究與應用。還有很多工作採用了長短期記憶模型(LSTM)、遞迴神經網路(RNN)、卷積神經網路(CNN)等模型解決自然語言處理的各類任務:Xinchi Chen等人的“Long Short-Term Memory Neural Networks for Chinese Word Segmentation”將LSTM用於中文分詞;DuyuTang等人的“Document Modeling with Convolutional-Gated Recurrent Neural Networkfor Sentiment Classification”將Gated RNN和CNN結合應用於情感分析;Rui Lin等人的“Hierarchical Recurrent Neural Network for Document Modeling”將RNN應用於文件建模;Yan Xu等人的“ClassifyingRelations via Long Short Term Memory Networks along Shortest Dependency Paths”則將LSTM應用於關係分類;等等。可以看到,深度學習和神經網路模型已經在各自然語言處理任務上取得了引人注目的成績,以至於EMNLP被人戲稱為“Embedding Methods for NLP”的簡稱。
特邀報告
本次EMNLP會議邀請了約書亞·本吉奧(YoshuaBengio)和賈斯汀·格里默(Justin Grimmer)做大會特邀報告。 約書亞•本吉奧是蒙特利爾大學的全職教授,是機器學習特別是深度學習的著名學者。他與傑夫•辛頓(Geoff Hinton)以及燕樂存(Yann LeCun)兩位教授,共同締造了2006年開始的深度學習復興。他的研究工作重心在高階機器學習方面,自然語言處理的神經網路語言模型的開山之作就是來自於他的團隊。約書亞•本吉奧的報告題目為“深度學習中的語義表示(Deep Learning of Semantic Representations)”,著重介紹了近些年自然語言處理語義表示學習的進展。他首先對比了語義表示學習和傳統的機器學習方法的優勢所在。接下來他透過機器翻譯為例子介紹了語義表示學習近些年來主要的模型和發展。其中,他十分推崇近兩年來在翻譯領域得到很好效果的基於Attention的神經網路模型。在報告的最後,約書亞•本吉奧展望了未來幾個重要研究趨勢,值得我們特別關注:
(1)將傳統隱變數模型(Latent variable Models)同RNN等生成模型相結合;
(2)探索考慮多時間粒度的神經網路模型,描繪長距離依賴關係;
(3)多模態(將文字與影像,音訊,影片等結合);
(4)探索Neutral Turing Machine和Memory Network等基於記憶的神經網路模型;
(5)問答和自然語言理解。
賈斯汀·格里默是史丹佛大學的副教授,他的主要研究方向是採用機器學習方法探索美國政壇的情況。報告展示了美國選舉人如何利用社交媒體培養支持者,支持者如何向他們支援的選舉人表達自己的意見。同時,調查結果可以幫助我們理解美國政壇的代表產生,以及計算工具如何幫助我們解釋社會科學中的問題。
最佳論文
本次會議評選出了兩篇最佳論文。其中一篇是來自康納爾大學的“Broad-coverage CCG Semantic Parsing with AMR”,論文第一作者是YoavArtzi。論文提出了對於AMR語義分析的一種語法規約技術。傳統的語法規約技術需要對於每個目標應用重新學習新的語法解析器,而最近AMR Bank使設計可以廣泛理解新聞領域文字、同時支援不同應用的模型成為可能。作者將CCG解析同因子圖模型相結合,前者用於發現語義的可組合部分,後者用於表示語義中的不可組合部分,取得了令人滿意的效果。 另一篇最佳論文是來自劍橋大學的“SemanticallyConditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems”,論文第一作者是Tsung-HsienWen。自然語言產生系統是對話系統的重要組成部分。目前大多數的自然語言產生系統通常使用規則和啟發方法來產生回覆,所產生的回覆一般嚴格符合某種程式規則,沒有自然語言中的語言變體,同時這種方法也不易於擴充套件到其他語言和領域。針對這個問題,作者提出了基於長短期記憶模型LSTM的自然語言產生系統。LSTM可以透過句子規劃和表意實現從非對齊語料中自動學習,並透過在輸出結果中抽樣實現語言變體。
本次會議還評選了一篇最佳資料集論文,是來自史丹佛大學的“A large annotated corpus for learning natural language inference”,第一作者是SamuelR. Bowman。該論文發表了一個面向自然語言推理任務的資料集,解決了該任務沒有大規模標註資料集的困境,將極大推動該任務的研究進展。 其他獲得最佳論文提名的有:來自KelvinGuu,John Miller和Percy Liang的“Traversing Knowledge Graphs in Vector Space”,來自AurelieHerbelot和Eva Maria Vecchi的“Building a shared world: mapping distributional to model-theoreticsemantic spaces”,來自Karthik Narasimhan,Tejas Kulkarni和Regina Barzilay的“Language Understanding for Text-based Games using DeepReinforcement Learning”。
講習課程和研討會
EMNLP 2015 共設立了 15 場講習課程講座和研討會,涵蓋了資訊抽取,語義,社交網路,機器翻譯等自然語言處理的各個熱點問題。這些課程在會議的前兩天舉辦。
總結和展望
從本次會議可以強烈感受到,EMNLP已經成為自然語言處理,特別是統計自然語言處理領域的學術盛會。據說由於會場規模限制,大會組織者不得不提前關閉會議註冊系統,可見近年來該領域的蓬勃發展遠超組織者們的想象。特別值得一提的是,本次EMNLP會議的口頭報告、海報報告以及各分會場主席,都能看到中國學者的活躍身影,本次會議來自中國大陸的投稿量已經僅次於美國位列第二。
本次會議論文也發出了明確的訊號,深度學習和神經網路模型已經成為自然語言處理各任務的重要研究方法。特別是“端到端(end-to-end)”的設計思想,拋棄了傳統的“詞法->句法->語義”流水線模式中特徵構造、選擇和標註的繁瑣工作。大量研究成果展示了深度學習的優越性,值得國內學者密切關注。 當然,我們也需要深刻思考,作為自然語言處理學者,我們能為深度學習在自然語言處理中的應用做些什麼,而不僅僅是“拿來主義”。例如,傳統自然語言處理研究積累了大量的特徵、知識和模型,是否應該完全擯棄?這些由專家們幾十年辛勤耕耘收穫的先驗知識,是否可以引入深度學習框架,指導神經網路模型的設計與應用?語言是人類智慧的最高體現。吸收學習深度學習的最新進展,進一步探索符合自然語言特點的深度學習框架,實現自然語言理解能力的顯著提高,亟待我們來完成。