「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收

機器之心發表於2019-11-08

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收本次大會吸引了國內外眾多自然語言處理領域的專家學者參加,參會人數達到了 1920 多人。大會共舉辦了 18 場 Workshop、多個 Tutorial 和多場主題演講,涵蓋自然語言處理、社會計算學、計算機社會科學、AI 系統和深度學習等話題。

論文投稿整體接收情況來看,本屆大會共收到有效投稿 2876 篇,接收 683 篇,接收率為 23.7%。

其中,被接收的長論文有 465 篇,包括 164 篇口頭報告和 301 篇 Poster 論文;短論文共有 218 篇,包括 48 篇口頭報告和 170 篇 Poster 論文。

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收

論文投稿得分情況來看,得分在 3.67 以上才能保證有很大的概率被接收。

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收投稿論文得分分佈以及接收和被拒的情況。

論文投稿國家/地區來看,中美兩國的投稿量遠遠大於其他國家,其中中國提交了近 1000 篇,美國也近 900 篇。雖然中國的投稿量多於美國,但美國依然是接收論文最多的國家。下圖是論文投稿量排名前五的國家:

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收投稿量前五名分別為:中國、美國、英國、日本和德國。

另外,機器之心還參考了學術頭條關於本屆EMNLP大會的報導,它們從投稿領域、入選論文所屬機構等多方面對本屆大會進行了分析。以下是有關這兩方面的具體分析:

論文投稿領域來看,投稿量排名前三的領域依次是:用於自然語言處理(NLP)的機器學習、摘要和生成(Summarization and Generation)和機器翻譯與多語化(Machine Translation and Multilinguality)。這三個領域的接收論文都超過了 50 篇。

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收本屆大會論文投稿領域分佈情況(圖源:學術頭條)。

據學術頭條統計,從入選論文所屬機構來看,國外學界和工業界中,卡內基梅隆大學、艾倫人工智慧研究所、愛丁堡大學、加利福尼亞大學、華盛頓大學等機構的論文入選數位居前列;谷歌、Facebook、微軟、IBM 等業界巨頭依然佔據霸主地位;國內高校中,北大、清華、哈工大、北航、浙大、中山大學、北理工的論文錄取數量位居前列,阿里巴巴、騰訊等業界巨擘表現不俗。

在本屆大會所有接收的論文中,機器之心經整理發現,哈爾濱工業大學教授、哈工大人工智慧研究院副院長劉挺教授有 10 篇論文被接收。

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收

以下是劉挺教授被接收的 10 篇論文及論文連結:

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收

機器之心根據所有的投稿論文標題製作了詞雲,從中可以看出,生成、神經網路等是本次大會的重點關注領域。

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收

各大獎項出爐

本次 EMNLP-IJCNLP 大會頒發了最佳論文獎、最佳資源獎、最佳 Demo 獎等多個獎項,以下是具體的獲獎資訊。

EMNLP-IJCNLP 2019 最佳論文獎

今年的最佳論文獎頒給了約翰·霍普金斯大學的研究團隊,他們的論文題目是《Specializing Word Embeddings(for Parsing)by Information Bottleneck》,其一作 Xiang Lisa Li 是約翰·霍普金斯大學的大四學生,是一位華人學者,其導師是著名 NLP 學者 Jason Eisner。

「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收

論文連結:http://cs.jhu.edu/~jason/papers/li+eisner.emnlp19.pdf

摘要:預訓練詞向量,如 ELMo 和 BERT 包括了豐富的句法和語義資訊,使這些模型能夠在各種任務上達到 SOTA 表現。在本文中,研究者則提出了一個非常快速的變分資訊瓶頸方法,能夠用非線性的方式壓縮這些嵌入,僅保留能夠幫助句法解析器的資訊。研究者將每個詞嵌入壓縮成一個離散標籤,或者一個連續向量。在離散的模式下,壓縮的離散標籤可以組成一種替代標籤集。通過實驗可以說明,這種標籤集能夠捕捉大部分傳統 POS 標籤標註的資訊,而且這種標籤序列在語法解析的過程中更為精確(在標籤質量相似的情況下)。而在連續模式中,研究者通過實驗說明,適當地壓縮詞嵌入可以在 8 種語言中產生更精確的語法解析器。這比簡單的降維方法要好。

EMNLP-IJCNLP 2019 最佳論文第二名

今年最佳論文獎的第二名頒給了史丹佛大學的研究團隊,他們的論文題目是《Designing and Interpreting Probes with Control Tasks》。作者為 John Hewitt、Percy Liang。

論文連結:https://www.aclweb.org/anthology/D19-1275.pdf

摘要:訓練有素的監督模型可以根據表達形式(如 ELMo)預測屬性(如詞性),探測器在一系列語言任務上均具有很高的準確性。但這是否意味著這些表達形式對語言結構進行了編碼,或者只是探測器已經學習了語言任務?在本文中,研究者提出了控制任務,將詞的型別與隨機輸出聯絡起來,以輔助語言任務。按照設定,這些任務只能由探測器來學習。因此選擇一個合適的探測器(能反映該表達形式的探測器)很重要,以實現較高的語言任務準確性和較低的控制任務準確性。探測器的選擇性將語言任務的準確性與自身記憶詞型別的能力相關聯。研究者提出了用於英語詞彙標註和依賴邊緣預測的控制任務,並且展示了基於表達形式上的探測器是不可選擇的。

同時他們還發現,通常用於控制探測器複雜性的濾除對提高 MLP 的選擇性是無效的,但是其他形式的正則化是有效的。最後,他們發現,儘管 ELMo 的第一層探測器比第二層探測器的詞性標註精度高一些,但是第二層上的探測器更具選擇性。引出了以下問題:究竟哪一層可以更好地代表詞性。

EMNLP-IJCNLP 2019 最佳資源獎

今年的最佳資源獎頒給了 Facebook、美國索邦大學和約翰·霍普金斯大學的研究團隊,他們的論文題目是《The FLORES Evaluation Datasets for Low-Resource Machine Translation: Nepali–English and Sinhala–English》。作者為 Francisco Guzmán、Peng-Jen Chen、Myle Ott、Juan Pino、Guillaume Lample 等

論文連結:https://arxiv.org/pdf/1902.01382.pdf

專案地址:https://github.com/facebookresearch/flores

摘要:在機器翻譯領域,很多語言對的可用對齊語料都非常稀少。除了在技術上要面臨有限制的監督學習挑戰外,評估這些在低資源語言對上訓練的方法也存在困難,因為可用的基準非常少。在本文中,研究者介紹了一個用於尼泊爾語-英語、僧伽羅語-英語的 FLORES 評估資料集,該資料集基於維基百科上翻譯過的句子。與英語相比,這些語言在形態學和句法學上都存在很大差異。對於這些語言,很少有領域外的平行語料可用,但它們的免費可用單語資料非常豐富。研究者描述了收集和交叉驗證翻譯質量的過程,並使用幾種學習方法報告基線效能,包括完全監督、弱監督、半監督和完全無監督。實驗表明,當前最佳的方法在這些基線上表現都非常差,這給研究低資源語言機器翻譯的社群帶來了很大挑戰。

EMNLP-IJCNLP 2019 最佳 Demo 獎

今年的最佳 Demo 獎頒給了加州大學伯克利分校、艾倫人工智慧研究所、加利福尼亞大學爾灣分校的研究團隊,他們的論文題目是《AllenNLP Interpret: A Framework for Explaining Predictions of NLP Models》。作者為 Eric Wallace、Jens Tuyls、Junlin Wang、Sanjay Subramanian、Matt Gardner、Sameer Singh 等人

論文連結:https://arxiv.org/abs/1909.09251

專案地址:https://allennlp.org/interpret

摘要:神經 NLP 模型正變得越來越精確,但它們遠非完美,而且是不透明的。這些模型以違反直覺的方式崩潰,使得使用者摸不著頭腦。模型解釋方法通過為特定的模型預測提供解釋來減輕它們的不透明性。然而,現有的解釋程式碼庫使得這些方法在新模型和新任務中難以應用,這阻礙了從業者採用這些方法,同時也給可解釋性研究帶來負擔。為此,來自艾倫人工智慧研究所等機構的研究者開發了一個靈活的 NLP 模型解釋框架——AllenNLP Interpret。它可以為所有的 AlenNLP 模型和任務提供解釋原語(如輸入梯度)、一系列內建解釋方法一級一個前端視覺化元件庫。

參考連結:https://mp.weixin.qq.com/s/IKREAyWcTH-jp8plTcAR5A

相關文章