機器之心報導
參與:張倩、蛋醬
昨天,知乎上出現了一個「救救 AI 領域,救救孩子!」的帖子,在社群內引起了廣泛關注。AI 領域出了什麼問題?怎麼拯救?這篇文章將重點探討這些問題。
原貼連結:https://zhuanlan.zhihu.com/p/127085043
發帖者認為,目前 AI 領域的「灌水」、造假亂象已經到了不可忽視的地步,因此呼籲大家揭露在論文或程式碼中發現的問題。為此,她建立了一個名為「AI 論文線上質疑」的專欄,希望大家可以將發現的問題反饋出來,一起討論,藉助大家的力量淨化 AI 社群。
這一倡議得到了清華大學副教授劉知遠等圈內研究者的支援。畢竟學術造假、灌水對 AI 領域的長期發展非常不利,尤其是前者。正如發帖者所說,科學研究是一個不斷迭代的過程,「如果前人的頂會論文是造假的,後輩們後面 follow 的文章就如同建立在垃圾上的空中樓閣,岌岌可危。」
目前,很多頂會組委會、期刊編輯似乎都注意到了這個問題,因此越來越重視論文的可復現性,要求論文作者提交程式碼、鼓勵重複性研究等。但投稿眾多,官方力量有限,因此也需要藉助「民間」力量。
CVPR 2019 暴露出的問題
作為一個長期存在的問題,國內社群對 AI 領域「灌水」、「造假」問題的關注似乎在 CVPR 2019 放榜之際達到了高潮。
CVPR 2019 最終收到有效投稿 5165 篇,比上一年投稿量足足增長了 50% 以上。當時,因為投稿量的大幅度增長,論文的線上協同編輯工具 overleaf 一度因為編輯人太多而崩潰。
華南理工譚明奎教授評論說:「當硬體領域的摩爾定律逐漸因為硬體極限而失效的時候,paper 發表數量接了班。」
從那時開始,越來越多的人意識到,今天的頂會已經不再是原來的頂會了。
人們對 CVPR 以及其他頂會所存在問題的不滿,也終於爆發了出來。在知乎問題「2019 年 CVPR 有哪些糟糕的論文?」下面,多篇文章被拉出來,一條條地進行分析指責,這裡面甚至包括 oral 論文,「讓人覺得 CVPR 也不過如此」。
這樣的「質疑」也存在於各個頂會,人工智慧火了,從業者暴增,論文投稿數量暴增,讓昔日光環加身的頂會顯得「臃腫不堪」。
NeurIPS 2019
,投稿上萬,1428 篇接收論文,57 場 workshop,13000 名參會者,遠遠看去,大會現場宛如演唱會……
ICLR 2020
,投稿量逐年上漲,2018 年 900 多篇,2019 年 1500 篇,2020 則達到了 2600 多篇。
CVPR 2020
,投稿論文 ID 破萬,有效投稿 6656 篇,比 CVPR 2018 相比整整翻了一番……
在 AI 領域待過的人,或多或少都有一個奇怪的焦慮(peer pressure):投完 NIPS 就想著 AAAI 投什麼好,投完 AAAI 就在想 CVPR 投什麼好。為什麼可以有那麼多工作可以投?不排除有少部分大佬和巨佬是真的可以做到有源源不斷地產出 impressive 的 idea 並且能在短時間內對 idea 從理論到實踐都進行詳盡地驗證,然而除了大佬以外的其他人呢?無他,純灌水耳。(引自 @ 資訊門下跑狗)
如何拯救?
問題說了一大堆,怎麼解決呢?從目前各大頂會、期刊動向及個人建議來看,大體可以可以分為兩個思路。一是從會議、期刊入手,制定更加嚴格的投稿政策(如要求提交程式碼),同時積極接收重複性研究和得出無效結果的研究;二是社群自發的「打假」運動,充分利用社群資源,「大家一起來找茬」。針對這兩個思路,各方似乎已經開始了嘗試。
NeurIPS 2020:「強烈建議」提交程式碼
從 NeurIPS 2019 開始,組委會就啟動了鼓勵提交論文程式碼的策略(非強制)。這一策略起到了一定的效果。在 NeurIPS 2019 的最後提交階段,有 75% 的被接收論文附帶了程式碼,相比 2018 年的 50% 有了很大的提升。
今年,組委會繼續強化這一策略,從「鼓勵」變成了「強烈建議」(仍不強制),還提供了提交程式碼的準則和模板。
這一規則是依據 2019 年審稿人的反饋決定的,據調查,每次審稿之後,13% 的審稿人表示看過程式碼,21% 的審稿人表示沒看過,其餘表示「不適用」,這也許是因為很多論文沒有程式碼。在未提供程式碼的前提下,21% 的審稿人表示希望論文附有程式碼。並且組委會發現,隨論文提交程式碼的質量與審稿人給出的評分高度相關。
Nature:鼓勵重複性研究和無效結果研究
在今年 2 月的一篇社論文章中,《Nature》提出了一項倡議,指出研究機構、期刊都應該鼓勵重複研究和得出無效結果(NULL results)的研究。文章強調,發表無效結果的研究者可以幫助社群將大量資金投向更富有成效的領域,更廣泛地傳播無效結果將最終促使社群改變他們的理論,使其更加適用於現實世界。
對此,這篇社論文章提出了兩種策略。
首先,研究機構應該通過言語和行動來鼓勵這種行為。去年,柏林健康研究所發出了一份書面倡議,鼓勵該機構的研究者發表自己的重複性結果和無效結果,對抗復現危機。響應倡議的研究者將得到 1000 歐元的獎勵。此外,該研究所還有一個 APP 和顧問,幫助研究人員確定應該聯絡哪些期刊、預印本平臺或其他渠道來發表重複性研究和資料。該 APP 會提供有關預期發表費用、提交 deadline、論文格式、同行評審要求等資訊。
其次,這篇文章指出,應該有更多期刊向社群強調發表重複性研究和無效結果的重要性,而且《Nature》明確表態,「在《Nature》中,重複性研究被放在與其他研究同等的高度。《Nature》歡迎提交可以為之前已發表工作提供見解的研究。」
建立 AI 領域 pubpeer?
期刊、會議雖然影響廣泛,但面臨海量的投稿,他們的力量也是有限的,所以才有了文章開頭提到的倡議。對此,劉知遠教授回覆道:「可以考慮搞個 AI 版的 PubPeer」。
PubPeer 建立於 2012 年,是一個鼓勵科研人員匿名對已發表的論文進行評論的網站。它相當於一個科學論壇,只要學者擁有 PubPeer 的賬號,都可以對已發表過的論文進行評論,評論內容可以是批評、質疑、改進建議等。此前很多處於風暴中心的研究討論都是在這個網站上發酵的,甚至有些論文會因此撤稿。
這種「打假」網站的存在可以在一定程度上震懾學術不端的研究者。如果 AI 領域能有類似網站,相信對於整個社群研究氛圍的提升都有幫助。
推薦閱讀:
《關於本次 CVPR2019 投稿的一些感想》https://zhuanlan.zhihu.com/p/50263270
《深度學習先驅 Bengio:AI 頂會論文的 Deadline 是時候取消了》
參考連結:
https://www.nature.com/articles/d41586-020-00530-6
https://medium.com/@NeurIPSConf/designing-the-reproducibility-program-for-neurips-2020-7fcccaa5c6ad
https://www.toutiao.com/i6813939858885575182/