AI 頂會灌水嚴重,論文疲於趕場,科學研究變味了?

AIBigbull2050發表於2020-03-29
2020-03-26 15:37:49

AI 頂會快成灌水園地了。

頂會論文注水嚴重

注水、抄襲、造假…這兩年,AI 頂會論文學術不端的現象頻頻出現,令人咋舌。

近日,一位 ICML 審稿人的《自白信》火了,他在信中“怒吼”— 停止向大會提交未完稿的論文!

當我審閱到這些未完稿的論文時,我感受到了來自作者的不尊重。

這位審稿人吐槽,他所審閱的超過一半的投稿都是未完稿的論文,且這些論文存在明顯的錯誤。而審閱這樣一篇論文需要花費 6-7 小時,多則 10 多個小時。

在 IJCAI 2020 大會所提交的 5147 篇提交論文中,有 2191 篇論文被拒稿,拒稿率高達 42%,很多論文止步在了 summary reject 階段,連正式審稿過程都沒進入。這意味著有近半數的論文在質量上不達標,水分很大。

去年 11 月,荷蘭、瑞士兩位學者合著的入選 SIGIR 2019 的論文被指抄襲,部分內容與被 RecSys 2018 收錄的一篇論文高度相似,僅改動個別用詞,多處語句對比幾乎一字不差,很難令人相信這不是抄的。

一位很有自知之明的網友認真總結了“寫水論文是一種怎樣的體驗”,下面的評論,清一色的表示認同“過於真實”。

AI 頂會灌水嚴重,論文疲於趕場,科學研究變味了?

“有些論文水到不忍直視”,網友 A 君 吐槽道,“吹效能、編演算法…論文中很多表述簡直在胡扯”。除了包含錯誤、論文不完整、湊字數等基礎性的硬傷,根據知乎上一些大神級網友的總結,一般頂會上的灌水文還經常玩轉各種套路,例如,對同一套演算法換資料集,同一個問題換模型,把現有的模型 / 求解方法組合巢狀,最佳化問題換個 loss、 換個 regularization ,把 2 範數換 1 範數、1 範數換非凸等。

深度學習大神李沐曾這樣總結灌水文的特徵:小白文一般來說是基於前面的工作,做一點細微的改動,然後有理有據的把結果寫下來。這樣一方面透過實際動手熟悉這個領域,另一方面練習寫作。但從讀者的角度來說,這些小白文十有八九是灌水。

他還提到了一組耐人尋味的資料,如果回翻任一頂會前 10 年的論文集,會發現,90% 論文的主要是給作者練手,剩下的 9% 可能會啟發數個人,真正能啟發很多人的論文就是那 1%。

曾在學術界深耕多年後投身工業界的 AI 專家鄭凜之(化名)對 AI 前線稱:

即便是頂會,大部分文章都沒有什麼實質性創新,這稱之為‘borderline’ 文章,有運氣的成分在裡面。

根源在於科研評價體系機制設定不合理

與論文質量下降形成鮮明對比的是,這幾年 AI 頂會的論文規模實質上是不斷攀升的。

AI 前線統計發現,ICLR2020 投稿數為 2600 篇,比 2019 年增長 73%,比 2018 年增長 2 倍;IJCAI 2020 投稿論文 5147 篇,比 2019 年增長 8%,比 2018 年增長 48%;NeurIPS 2019 投稿數 6743 篇,比 2018 年增長近 40%;ACL 2019 投稿數近 2700 篇,比 2018 年增加了 75%。

AI 研究熱潮帶動了頂會論文數量爆發式增長,規模激增後,難免有很多水論文濫竽充數。

NLP 領域專家楊明然(化名)向記者描述了他觀察到的一些怪象:

一些人做科研急功近利,工作做的不紮實、不深入,很多問題沒有研究或闡釋清楚就著急出手,更有甚者錯誤連篇,文章猶如粗製濫造,對他人形成了誤導。

他認為,頂會論文灌水背後與學術界的評審機制、價值取向、社會風氣等因素有關。現在很多學校和機構盲目強調論文數量,且新的頂會、期刊層出不窮,論文越收越多。

在上世紀 80-90 年代,一位名校教授到退休時一般研究論文在 30 篇左右,而現在一個剛博士畢業的人年產 20-30 篇論文已如稀鬆平常,可見搞學術的門檻越來越低了。

唯論文論讓很多學生壓力山大。如今,在頂會發論文,已成了申博的必要條件之一,對很多學生來說,如果沒有在頂會發表過論文,很可能意味著很難繼續申請到博士學位,也找不到好的工作。今年 1 月,一位丹麥科技大學的機器學習研究生 Andreas Madsen,因為沒有發表過頂會論文,申請博士學位失敗找工作也四處碰壁,最終他下定決心閉關了 8 個月,終於成功在頂會上發表了一篇論文。

學術科研變得越來越現實,能夠保持純粹科研初心的學者少之又少了。

只有極少數學者想做真正的研究,大部分人都不熱愛研究,只是當作一項工作而已,而業內論文導向又是事實,因此‘刷’論文”成了常態化。

鄭凜之還提到國內學術界另一個常見現象:有些導師為了自己評職稱,要求學生一定要發好論文,而且第一作者一定要是導師。

導師搶一作這事兒也不能簡單遑論對錯。有很多學校或者科研單位對學生的畢業要求是:一作導師,二作學生,也可以畢業,因此很多導師標一作符合規定。“搶”一作背後的原因細究起來比較複雜,在此暫不展開討論。

今年 2 月,深度學習先驅 Bengio 在自己的部落格發文直指當下頂會論文發表模式的弊病 — 被拒再投,一稿多投,大家都在 Dealine 之前疲於趕場。他認為,這種“會議發表”模式對提升研究質量來說弊大於利,迫切需要變革。

楊明然認為,媒體對 AI 的過分炒作也助長了水論文增長。“學研工作一有點噱頭,各種媒體就爭相報導,完全忽視了領域專家的嚴格評審,擴大影響力的同時也促進了論文中稿”。

評審人質量下降被認為是頂會論文水化的另一個關鍵原因。不久前, ICLR 2020 的評審引發爭議,在這次大會的審稿人中,有 47% 的人沒有在相關領域發表過論文。跨領域審稿,顯然無法保證專業度。

現在隨著各個 AI 領域細分度增加,找到合適的審稿專家並不容易。有些審稿人僅是碩士水平,甚至很多審稿人並未在頂會發表過論文…香港中文大學助理教授周博磊回顧了自己十年來投稿 CVPR 的經歷,他表示,確實感受到會議的審稿意見變得越來越隨機,不負責任的審稿人越來越多。

南京大學周志華教授在社交平臺發出“警言”,如果投稿量遠遠大於合格投稿人所能承受的程度,會令頂會逐漸垮塌,或者最終只好回到期刊去了。

灌水風氣如何破局?

這些頂會是國內外 AI 學者發表自己研究成果的最高舞臺,如果這些上面的論文品控不達標,注水頻發,長期以往,必然會透支 AI 頂會的影響力和信任值。做不出創新性的技術研究,也會成為人工智慧發展的“絆腳石”。

為了改變注水之風,一些會議已注意到在論文評審機制上做出改進,如設定過濾機制、要求提交原始碼等。

IJCAI2020 今年首次引入了 desk reject 機制,SPC 會在 5-10 分鐘內通判論文情況,質量不合格的直接過濾掉,這大大減輕了審稿人的壓力,但因為在第一階段就過濾掉了近一半的論文,該機制引起爭議,甚至有網友表示要抵制 IJCAI。

“我學生趕 deadline,修改增加了一些文字,時間一著急就提交了,最後論文沒審就被‘幹’掉了,後來發現是因為論文多了一行,這樣的格式問題其實也能理解”,鄭凜之覺得 desk reject 機制肯定存在“誤殺”的情況,但他認為為防灌水,要改進頂會論文的審稿機制其實挺難的。

評價本身很難客觀,一些論文評價機制本身沒有錯,但執行上卻並不容易,實際中就變成了‘數數’。

ICML 2019 、ICLR 、 NeurIPS 等會議也在嘗試將增加實驗程式碼和資料作為論文提交的一個選項。此前大部分投稿人並不提供研究原始碼,這讓復現工作難以實現。2018 年一項針對某 2 個頂會的調查顯示,會議上發表的 400 篇 AI 論文,僅 6%的論文包含演算法的程式碼,約 30%包含測試資料,54%包含虛擬碼。

“要是必須公開程式碼的話,摻水論文還怎麼發表”,要求提交原始碼,能在一定程度上減少論文的水分。但到底應不應該提交原始碼?

有觀點認為,無法復現就沒有意義,遲早得強制,只追求高影響因子,不追求高可復現性的學術氛圍是時候做出改變了。但也確實存在因為涉及到核心技術、資料所有權等智慧財產權不能公開的情況。因此綜合來看,現階段,搞“一刀切”強制提交程式碼不太人性化,但推出一些鼓勵機制鼓勵公開程式碼是可以的。

值得一提的是,今年以來,科技部多次發文表示要改進科技評價體系,1 月底,科技部下發通知要求科研人員“把論文寫在抗擊疫情的第一線,把研究成果應用到戰勝疫情中”。

2 月 23 日,科技部正式印發了《關於破除科技評價中“唯論文”不良導向的若干措施(試行)》通知,通知的核心目標是改進科技評價體系,明確要求破除科技評價中過度看重論文數量多少、影響因子高低等“唯論文”不良導向。

變革不是一日之功,學術研究經年累積形成的風氣和制度體系可能很難在短時間內改變,正如一位網友所擔憂的“副作用”,

評價體系不好改,總不能學校養著一堆教授“摸魚”吧?

這些改進舉措是否有成效還需要時間來驗證,但令人欣慰地是,科研評價體系的各個參與方已經在做出努力,期待這些不良學術風氣能夠在不久的將來有所改善。

最後,借用周博磊教授的一句話作為本文的結語:

保持對科研的敬畏和好奇,這條路才能越走越寬,越走越遠。

(應受訪人要求,文中人名均為化名)。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2683185/,如需轉載,請註明出處,否則將追究法律責任。

相關文章