2018自然語言處理與機器學習論文發表統計

dicksonjyl560101發表於2019-01-12

https://www.toutiao.com/a6645278730526671368/


來源:http://www.marekrei.com/blog/ml-and-nlp-publications-in-2018/

翻譯:哈工大SCIR 尹慶宇

自然語言處理領域在2018年有著突飛猛進的進步,在論文發表和投遞數量都屢創新高,打破歷史記錄。NeurIPS會議的門票甚至在11分38秒內就售罄。本文對2018年相關會議和期刊的論文發表做出統計,按照作者和機構介紹論文發表情況。

今年的統計包括瞭如下會議和期刊:ACL, EMNLP, NAACL, EACL, COLING, TACL, CL, CoNLL, NeurIPS(原NIPS), ICML, ICLR, AAAI。這些基本涵蓋了目前世界上主流的自然語言處理和機器學習相關會議和期刊。與往年相比,我們去掉了SemEval,因為這個會議更多關注的是評測論文,而在其他會議中也去掉了這類論文。另外,在幾年我們也增加了AAAI的統計。本統計用指令碼從論文列表中自動統計資訊,用多種手段將作者和機構對齊,儘量避免錯誤。

儘管本統計顯示了在過去一年內發表論文數目最多的作者和機構,但是我們覺得論文的質量是我們領域最應該被重視和追求的。下邊的圖表顯示,本領域發展的越來越快,並變得越來越流行。發表一篇高質量,能夠被人記住的論文往往比發表10篇很快被遺忘的論文重要。本文只是從高層視角統計了作者在會議中發表論文的情況,可能給新的研究者在論文新想法上些許啟發。

會議規模統計

首先,我們對每個會議發表的論文數做出統計(2012-2018)。大多數會議發表的論文數目都有大幅提高,尤其是AAAI和NeurIPS發表的論文數目比上一年多了1000篇以上,EMNLP和NAACL都大幅超越自己的論文發表記錄,而ACL和Coling則與歷史數目相似。TACL和CL每年的論文發表數目基本不變。

2018自然語言處理與機器學習論文發表統計

作者統計

接下來,我們按照作者統計了2018年發表論文數目。3個學者在2018年分別貢獻了22篇論文,他們是:Ming Zhou(MSRA),Graham Neubig(CMU)和Sergey Levine(UCB)。後續排名的學者分別是Tong Zhang(Tencent AI),Maosong Sun(清華)和Iryna Gurevych(TU Darmstadt)。值得一提的是,哈工大社會計算與資訊檢索研究中心主任劉挺教授(Ting Liu)共發表論文17篇,排名第10名(華人學者中排名第4)。

2018自然語言處理與機器學習論文發表統計

我們還統計了從2012年到2018年作者發表的論文總數。來自DeepMind的Chris Dyer排名第一,接下來分別是Ming Zhou(MSRA), Yoshua Bengio(Montreal),Yue Zhang(西湖大學)和Noah A.Smith(Washington)。哈工大社會計算與資訊檢索研究中心主任劉挺(Ting Liu)教授排名第6(華人學者中排名第3)。

接下來做了各作者不同年份發表的論文數目變化統計。從統計中可以看到,Chris Dyer在兩年內論文數目的差距是最大的,Yue Zhang和Ming Zhou也有類似的情況。

2018自然語言處理與機器學習論文發表統計

第一作者統計

我們還對發表論文的第一作者做出了統計。統計表明,來自南洋理工大學的Yi Tay(博士三年級)共發表10篇論文,大幅領先第二名,排名榜首。

2018自然語言處理與機器學習論文發表統計

對於2012-2018時間段,Jiwei Li以22篇第一作者論文遙遙領先。

2018自然語言處理與機器學習論文發表統計

機構統計

在2018年年發表的論文中,按照機構統計的結果如下圖所示。與2017年相比,CMU還是佔據了榜首的位置。在工業界,Google和Microsoft排名靠前。國內的學校中,清華大學、北京大學、上海交通大學等都榜上有名。

2018自然語言處理與機器學習論文發表統計

在2012-2018年的全時段排名中,CMU依舊排名榜首。Google和Microsoft排名第二和第三。Princeton, INRIA 和Duke看起來只發表機器學習相關的論文,並不涉及自然語言處理領域。Peking, CAS和Edinburgh在語言處理應用相關論文(NeurIPS/ICML)有著很強的影響力。值得注意的是,哈爾濱工業大學作為國內的四所大學之一上榜。

2018自然語言處理與機器學習論文發表統計

主題聚類

我們利用主題聚類的方式對作者和機構進行聚類。聚類是通過將所有相關論文放入LDA實現的。聚類的圖體現了不同作者或機構發表論文內容的相似程度。

2018自然語言處理與機器學習論文發表統計
2018自然語言處理與機器學習論文發表統計

最後,希望大家在2019年有更大收穫。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2386071/,如需轉載,請註明出處,否則將追究法律責任。

相關文章