AI 頂會灌水嚴重，論文疲於趕場，科學研究變味了？

2020-03-26 15:37:49

AI 頂會快成灌水園地了。

頂會論文注水嚴重

注水、抄襲、造假…這兩年，AI 頂會論文學術不端的現象頻頻出現，令人咋舌。

近日，一位 ICML 審稿人的《自白信》火了，他在信中“怒吼”— 停止向大會提交未完稿的論文！

當我審閱到這些未完稿的論文時，我感受到了來自作者的不尊重。

這位審稿人吐槽，他所審閱的超過一半的投稿都是未完稿的論文，且這些論文存在明顯的錯誤。而審閱這樣一篇論文需要花費 6-7 小時，多則 10 多個小時。

在 IJCAI 2020 大會所提交的 5147 篇提交論文中，有 2191 篇論文被拒稿，拒稿率高達 42%，很多論文止步在了 summary reject 階段，連正式審稿過程都沒進入。這意味著有近半數的論文在質量上不達標，水分很大。

去年 11 月，荷蘭、瑞士兩位學者合著的入選 SIGIR 2019 的論文被指抄襲，部分內容與被 RecSys 2018 收錄的一篇論文高度相似，僅改動個別用詞，多處語句對比幾乎一字不差，很難令人相信這不是抄的。

一位很有自知之明的網友認真總結了“寫水論文是一種怎樣的體驗”，下面的評論，清一色的表示認同“過於真實”。

“有些論文水到不忍直視”，網友 A 君吐槽道，“吹效能、編演算法…論文中很多表述簡直在胡扯”。除了包含錯誤、論文不完整、湊字數等基礎性的硬傷，根據知乎上一些大神級網友的總結，一般頂會上的灌水文還經常玩轉各種套路，例如，對同一套演算法換資料集，同一個問題換模型，把現有的模型 / 求解方法組合巢狀，優化問題換個 loss、換個 regularization ，把 2 範數換 1 範數、1 範數換非凸等。

深度學習大神李沐曾這樣總結灌水文的特徵：小白文一般來說是基於前面的工作，做一點細微的改動，然後有理有據的把結果寫下來。這樣一方面通過實際動手熟悉這個領域，另一方面練習寫作。但從讀者的角度來說，這些小白文十有八九是灌水。

他還提到了一組耐人尋味的資料，如果回翻任一頂會前 10 年的論文集，會發現，90% 論文的主要是給作者練手，剩下的 9% 可能會啟發數個人，真正能啟發很多人的論文就是那 1%。

曾在學術界深耕多年後投身工業界的 AI 專家鄭凜之（化名）對 AI 前線稱：

即便是頂會，大部分文章都沒有什麼實質性創新，這稱之為‘borderline’ 文章，有運氣的成分在裡面。

根源在於科研評價體系機制設定不合理

與論文質量下降形成鮮明對比的是，這幾年 AI 頂會的論文規模實質上是不斷攀升的。

AI 前線統計發現，ICLR2020 投稿數為 2600 篇，比 2019 年增長 73%，比 2018 年增長 2 倍；IJCAI 2020 投稿論文 5147 篇，比 2019 年增長 8%，比 2018 年增長 48%；NeurIPS 2019 投稿數 6743 篇，比 2018 年增長近 40%；ACL 2019 投稿數近 2700 篇，比 2018 年增加了 75%。

AI 研究熱潮帶動了頂會論文數量爆發式增長，規模激增後，難免有很多水論文濫竽充數。

NLP 領域專家楊明然（化名）向記者描述了他觀察到的一些怪象：

一些人做科研急功近利，工作做的不紮實、不深入，很多問題沒有研究或闡釋清楚就著急出手，更有甚者錯誤連篇，文章猶如粗製濫造，對他人形成了誤導。

他認為，頂會論文灌水背後與學術界的評審機制、價值取向、社會風氣等因素有關。現在很多學校和機構盲目強調論文數量，且新的頂會、期刊層出不窮，論文越收越多。

在上世紀 80-90 年代，一位名校教授到退休時一般研究論文在 30 篇左右，而現在一個剛博士畢業的人年產 20-30 篇論文已如稀鬆平常，可見搞學術的門檻越來越低了。

唯論文論讓很多學生壓力山大。如今，在頂會發論文，已成了申博的必要條件之一，對很多學生來說，如果沒有在頂會發表過論文，很可能意味著很難繼續申請到博士學位，也找不到好的工作。今年 1 月，一位丹麥科技大學的機器學習研究生 Andreas Madsen，因為沒有發表過頂會論文，申請博士學位失敗找工作也四處碰壁，最終他下定決心閉關了 8 個月，終於成功在頂會上發表了一篇論文。

學術科研變得越來越現實，能夠保持純粹科研初心的學者少之又少了。

只有極少數學者想做真正的研究，大部分人都不熱愛研究，只是當作一項工作而已，而業內論文導向又是事實，因此‘刷’論文”成了常態化。

鄭凜之還提到國內學術界另一個常見現象：有些導師為了自己評職稱，要求學生一定要發好論文，而且第一作者一定要是導師。

導師搶一作這事兒也不能簡單遑論對錯。有很多學校或者科研單位對學生的畢業要求是：一作導師，二作學生，也可以畢業，因此很多導師標一作符合規定。“搶”一作背後的原因細究起來比較複雜，在此暫不展開討論。

今年 2 月，深度學習先驅 Bengio 在自己的部落格發文直指當下頂會論文發表模式的弊病 — 被拒再投，一稿多投，大家都在 Dealine 之前疲於趕場。他認為，這種“會議發表”模式對提升研究質量來說弊大於利，迫切需要變革。

楊明然認為，媒體對 AI 的過分炒作也助長了水論文增長。“學研工作一有點噱頭，各種媒體就爭相報導，完全忽視了領域專家的嚴格評審，擴大影響力的同時也促進了論文中稿”。

評審人質量下降被認為是頂會論文水化的另一個關鍵原因。不久前， ICLR 2020 的評審引發爭議，在這次大會的審稿人中，有 47% 的人沒有在相關領域發表過論文。跨領域審稿，顯然無法保證專業度。

現在隨著各個 AI 領域細分度增加，找到合適的審稿專家並不容易。有些審稿人僅是碩士水平，甚至很多審稿人並未在頂會發表過論文…香港中文大學助理教授周博磊回顧了自己十年來投稿 CVPR 的經歷，他表示，確實感受到會議的審稿意見變得越來越隨機，不負責任的審稿人越來越多。

南京大學周志華教授在社交平臺發出“警言”，如果投稿量遠遠大於合格投稿人所能承受的程度，會令頂會逐漸垮塌，或者最終只好回到期刊去了。

灌水風氣如何破局？

這些頂會是國內外 AI 學者發表自己研究成果的最高舞臺，如果這些上面的論文品控不達標，注水頻發，長期以往，必然會透支 AI 頂會的影響力和信任值。做不出創新性的技術研究，也會成為人工智慧發展的“絆腳石”。

為了改變注水之風，一些會議已注意到在論文評審機制上做出改進，如設定過濾機制、要求提交原始碼等。

IJCAI2020 今年首次引入了 desk reject 機制，SPC 會在 5-10 分鐘內通判論文情況，質量不合格的直接過濾掉，這大大減輕了審稿人的壓力，但因為在第一階段就過濾掉了近一半的論文，該機制引起爭議，甚至有網友表示要抵制 IJCAI。

“我學生趕 deadline，修改增加了一些文字，時間一著急就提交了，最後論文沒審就被‘幹’掉了，後來發現是因為論文多了一行，這樣的格式問題其實也能理解”，鄭凜之覺得 desk reject 機制肯定存在“誤殺”的情況，但他認為為防灌水，要改進頂會論文的審稿機制其實挺難的。

評價本身很難客觀，一些論文評價機制本身沒有錯，但執行上卻並不容易，實際中就變成了‘數數’。

ICML 2019 、ICLR 、 NeurIPS 等會議也在嘗試將增加實驗程式碼和資料作為論文提交的一個選項。此前大部分投稿人並不提供研究原始碼，這讓復現工作難以實現。2018 年一項針對某 2 個頂會的調查顯示，會議上發表的 400 篇 AI 論文，僅 6％的論文包含演算法的程式碼，約 30％包含測試資料，54％包含虛擬碼。

“要是必須公開程式碼的話，摻水論文還怎麼發表”，要求提交原始碼，能在一定程度上減少論文的水分。但到底應不應該提交原始碼？

有觀點認為，無法復現就沒有意義，遲早得強制，只追求高影響因子，不追求高可復現性的學術氛圍是時候做出改變了。但也確實存在因為涉及到核心技術、資料所有權等智慧財產權不能公開的情況。因此綜合來看，現階段，搞“一刀切”強制提交程式碼不太人性化，但推出一些鼓勵機制鼓勵公開程式碼是可以的。

值得一提的是，今年以來，科技部多次發文表示要改進科技評價體系，1 月底，科技部下發通知要求科研人員“把論文寫在抗擊疫情的第一線，把研究成果應用到戰勝疫情中”。

2 月 23 日，科技部正式印發了《關於破除科技評價中“唯論文”不良導向的若干措施（試行）》通知，通知的核心目標是改進科技評價體系，明確要求破除科技評價中過度看重論文數量多少、影響因子高低等“唯論文”不良導向。

變革不是一日之功，學術研究經年累積形成的風氣和制度體系可能很難在短時間內改變，正如一位網友所擔憂的“副作用”，

評價體系不好改，總不能學校養著一堆教授“摸魚”吧？

這些改進舉措是否有成效還需要時間來驗證，但令人欣慰地是，科研評價體系的各個參與方已經在做出努力，期待這些不良學術風氣能夠在不久的將來有所改善。

最後，借用周博磊教授的一句話作為本文的結語：

保持對科研的敬畏和好奇，這條路才能越走越寬，越走越遠。

（應受訪人要求，文中人名均為化名）。

https://www.toutiao.com/i6808417674339549708/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2683185/，如需轉載，請註明出處，否則將追究法律責任。

AI 頂會灌水嚴重，論文疲於趕場，科學研究變味了？

頂會論文注水嚴重

根源在於科研評價體系機制設定不合理

灌水風氣如何破局？

相關文章